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1Вывшая «Академия Борланд», http://www .Ъог1апа-асайету.ги/. 
При Санкт-Петербургском отделении Математического Института им. 
В. А. Стеклова (ПОМИ РАН), http://logic.pdmi.ras .ru/~infclub/. 
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зультате обзорно-аналитической работы и научных исследова- 
ний, которые проводились совместно с Анной Камоевной Абра- 
мян, Андреем Владимировичем Лобацевичем, Леонидом Леони- 
довичем Налчаджи, Амитрием Александровичем Никитиным, 
Александром Владимировичем Сироткиным. С радостью поль- 
зуюсь возможностью поблагодарить их и за сотрудничество, и 
за поддержку, и за терпение. 

Антон Алексеевич Афанасьев, Максим Владимирович Мен- 
тюков, Сергей Сергеевич Синчук, Алексей Михайлович Левин, 
Дмитрий Михайлович Столяров, булучи студентами математико- 
механического факультета, принимали активнейшее участие в 
лекционных и практических занятиях, на которых обсуждались 
логико-вероятностные модели знаний с неопределённостью; их 
вклад существенно повлиял и на содержание соответствующих 
разделов книги и на форму его изложения. 


Введение 


Читатель, добравшийся по крайней мере до преди- 
словия и недовольный им, заплатил за книгу день- 
ги и хотел бы знать, какое ему будет возмещение. 
В этом случае моё последнее прибежище — напом- 
нить ему, что он знает различные способы извлечь 
пользу из книги без того, чтобы и впрямь её про- 
читать. Она может, подобно многим другим, при- 
крыть зазор в его библиотеке, где, аккуратно пере- 
плетённая, она наверняка будет хорошо смотреть- 
ся. Или же он может положить её на туалетный 
или чайный столик своей учёной подруги. Или же, 
наконец, он может её отрецензировать — это, без со- 
мнения, лучший способ её употребить, и я особо его 
рекомендую. 


Мир как воля и представление 
Артур Шопенгауэр 


В начале каждой главы её основные события будет предвос- 
хищать Винни. Да-да, тот самый Винни-Пух, который машет вам 
на рисунке. Истории про Пуха искушённый читатель, конечно, мо- 
жет презрительно пропустить, но мы надеемся, что они будут инте- 
ресными и достаточно тесно связанными с сутью происходящего. 
А сейчас Пух просто хочет поздороваться, ведь он действительно 
очень добрый медвежонок и искренне рад вас видеть. 


12 Введение 


Об искусственном интеллекте 


Идея искусственного интеллекта занимала людей довольно 
давно. Гефест создавал из металла помощников для своей куз- 
ницы, а одного гигантского человекоподобного робота — 'Тало- 
са — даже подарил Миносу для охраны Крита (по другой вер- 
сии, Зевс подарил его Европе). Пигмалион создал искусствен- 
ный интеллект из слоновой кости — правда, без Афродиты у 
него ничего бы не получилось. 

В средние века подобные достижения в основном приписы- 
вались магии — например, Вильгельм Парижский писал, что 
Альберт Великий! изготовил голову, говорящую человеческим 
голосом. Впрочем, были и реальные попытки создать видимость 
искусственного интеллекта — знаменитый шахматный автомат 
«Турок» управлялся сидящим внутри карликом-шахматистом, 
но свою роль в популяризации идеи искусственного интеллекта 
сыграл. В иудейской традиции искусственный интеллект отра- 
жён в виде големов — сделанных из глины искусственных слуг, 
обладающих интеллектом; сделать себе голема могли только Ca- 
мые святые и мудрые. Впрочем, големы умели только понимать 
речь, но не издавать её: по мнению иудеев, если бы они умели 
говорить, это бы означало, что у них есть душа. Литературную 
часть исторического экскурса стоит, пожалуй, закончить докто- 
ром Виктором Франкенштейном — дальше идея искусственного 
интеллекта появляется слишком часто, чтобы подробно её здесь 
анализировать. 


1 Альберт Великий (Albertus Magnus, ок. 1200-1280) — монах-домини- 
канец, один из лучших учёных своего времени. Он первым попытался увя- 
зать Аристотеля и христианские каноны, развил доктрину свободной воли 
(на которую много и с удовольствием ссылался, например, Данте), оставил 
след в логике, ботанике, географии, астрономии (и астрологии, конечно же), 
минералогии, химии (в частности, ему приписывают открытие мышьяка), 
зоологии, физиологии, френологии, теории музыки... Разумеется, занятия 
наукой привели к тому, что Альберта Великого и при жизни, и в особенно- 
сти после неё считали магом и волшебником. Несмотря на занятия алхими- 
ей — Альберт Великий не подтверждает, что нашёл философский камень, 
но пишет, что считали наблюдал изготовление золота трансмутацией — он 
был беатифицирован в 1622 году, а в 1931 канонизирован. Фома Аквинский 
был учеником Альберта Великого. 


Введение 13 


Первое полноценное философское обоснование мечты об ис- 
кусственном интеллекте получили в рационалистических рабо- 
тах Рене Декарта!. Декарт считал, что в сознании мыслящих 
людей от рождения заложены теоретические идеи, из которых 
всевозможные знания получаются сугубо дедуктивным путём, 
от общего к частному; в этом и есть суть рационализма, в от- 
личие от эмпиризма, который предпочитает идти индуктивно, 
от частного к общему. Отсюда уже полшага до искусственно- 
го интеллекта: дедукцию гораздо легче автоматизировать, чем 
индукцию (хотя и на этом пути есть свои проблемы), а дальше 
нужно будет только выделить и записать эти «основные тео- 
ретические идеи». Декарту вообще было свойственно пытаться 
механизировать человека и человеческие рассуждения: в извест- 
ной цитате он сравнивает больного человека со сломанными ча- 
сами, а одной из главных задач декартовой аналитической гео- 
метрии была попытка автоматизировать, упростить красивые 
индуктивные геометрические построения, которыми до той по- 
ры приходилось доказывать теоремы. 

Поворотным моментом в истории искусственного интеллек- 
та стало, разумеется, изобретение первых компьютеров. Соб- 
ственно, история искусственного интеллекта как раздела ин- 
форматики начинается с начала 1950-х гг. — в 1950 году Алан 
Тьюринг? предложил свой знаменитый тест, который считается 


1рене Декарт (René Descartes, 1596-1650) — французский учёный, фи- 
лософ, математик, писатель и многое-многое другое. Декарт родился во 
Франции, выучился на юриста, а затем поступил на военную службу в ре- 
волюционной Голландии, где впервые заинтересовался математикой. Имен- 
но в Голландии прошли наиболее плодотворные годы Декарта: с 1628 по 
1649 он написал подавляющее большинство своих работ. А работы эти фак- 
тически заложили фундамент всей современной науки: в «Рассуждении о 
методе» Декарт, основываясь на скептическом методе, создаёт рационали- 
стическую систему познания, основанную на дедуктивных рассуждениях, а 
также разрабатывает дуалистическую теорию, в которой «душа», мышле- 
ние отделяются от тела и рассматриваются как внефизические процессы. 
В математике Декарт известен как автор аналитической геометрии; кроме 
того, именно он впервые применил анализ бесконечно малых к задаче о 
касательной, что позволило Ньютону и Лейбницу разработать основы ма- 
тематического анализа. 

?Алан Тьюринг (Alan Turing, 1912-1954) — английский математик, ло- 
гик и криптограф. Он во многом создал современную теоретическую ин- 
форматику, формализовав понятие алгоритма, введя в рассмотрение Ma- 
шины Тьюринга и сформулировав общепринятую версию тезиса Чёрча (в 
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отправной точкой АГ как науки [138,159]. Суть теста Тьюрин- 
га в том, что компьютер должен суметь успешно выдать себя 
за человека в (письменном) диалоге между судьёй-человеком 
и компьютером: судья одновременно ведёт два диалога, один с 
настоящим человеком, а другой с компьютером, и после этого 
должен суметь ответить, кто из них кто. Сам Тьюринг, впро- 
чем, тут же указывал, что наоборот у нас, людей, уже никак 
не получится: человека от компьютера легко отличит любая до- 
статочно сложная арифметическая задачка. Отметим здесь же, 
что в статье самого Тьюринга есть некоторые детали, которые 
обычно ускользают из современных формулировок. Например, 
Тъюринг предлагал сравнивать не компьютер, имитирующий 
человека, и настоящего человека, а компьютер, выдающий Ce- 
бя за женщину, и мужчину, выдающего себя за женщину; иначе 
говоря, сравнивать имитирующий кого-то другого компью- 
тер с имитирующим кого-то другого человеком (подробнее о 
тесте Тьюринга см. [138]). 

Пятидесятые-шестидесятые годы ХХ века были временем 
безудержного оптимизма. Казалось, что ещё чуть-чуть, ещё HEM- 
ного — и гигантские холлы, заставленные громоздкими лампо- 
выми устройствами, напечатают на перфокартах: «Кто a?». Ha- 
учная фантастика того времени (которое заслуженно считается 
«золотым веком» научной фантастики вообще) уже не просто 
мечтает об искусственном интеллекте, а считает его свершив- 
шимся фактом, делом недалёкого будущего. Мысль движется 
дальше: фантасты задаются вопросами о будущем сосущество- 
вании человека и разумной машины. Всем известны три закона 


англоязычной литературе называемого обычно Church-Turing thesis). Имен- 
но Тьюринг переформулировал теорему Гёделя о неполноте, применив её к 
гильбертовской «Entscheidungsproblem», то есть к задаче о том, можно ли 
алгоритмически искать доказательства математических утверждений. Кро- 
ме того, он был одним из отцов-основателей современного искусственного 
интеллекта; ему принадлежит формулировка «теста Тьюринга», который 
должна пройти машина, претендующая на право считаться «искусственным 
интеллектом»: суметь поддержать разговор (хотя бы в текстовом формате) 
с человеком на естественном языке так, чтобы человек не понял, машина 
или другой человек с ним разговаривает. 

1 АТ — общепринятое сокращение от Artificial Intelligence, искусственный 
интеллект. 
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робототехники, сформулированные Айзеком Азимовым!; они, 


если вдуматься, предельно неформальны, понять их и принять 
к исполнению — тест гораздо сильнее тьюринговского. 

Литературный и общественный оптимизм отразился и в на- 
уке. Пятидесятые годы — время расцвета математической логи- 
ки; несмотря на уже доказанную и осознанную теорему Гёделя 
о неполноте, для многих ограниченных логик уже были извест- 
ны разрешающие процедуры. Да, они бывали экспоненциальны- 
ми, дважды экспоненциальными и даже более того, но общий 
вектор развития виделся ясным — автоматический логический 
вывод казался делом ближайшего булущего, а на этой основе 
можно было строить и ещё более амбициозные планы. 

В 1956 году Джон Маккарти?, Марвин Мински?, Натани- 
эль Рочестер“ и Клод Шеннон организовали знаменитую ACT- 
нюю школу в Дартмуте, где мозговым штурмом попытались 


1 Айзек Азимов (Isaac Asimov, 1920-1992) — американский фантаст и по- 
пуляризатор науки. Родился Азимов в деревне Петровичи Могилёвской гу- 
бернии, ныне Смоленской области (звали его тогда Исаак Озимов, от слова 
«озимые», которыми торговал его прадед). Хотя Азимов главным образом 
известен как фантаст — его достижения в этой сфере мы здесь не будем и 
пытаться перечислять — он также написал множество научно-популярных 
книг, от «Краткой истории химии» до «Путеводителя Азимова по Шекс- 
пиру». Одной из главных тем творчества Азимова стало взаимодействие 
человека с мыслящими машинами, для которого он сформулировал свои 
знаменитые три закона. 

?Ажон Маккарти (John McCarthy, р. 1927) — американский информа- 
тик и когнитивист. Маккарти придумал термин «агііћйсіа] intelligence», а 
также создал язык программирования Lisp, ставший для раннего АТ основ- 
ным [104]. Кроме того, Маккарти много работал в математической логике, 
в частности, над немонотонными логиками [105]. 

3 Марвин Мински (Marvin Minsky, р. 1927) — американский исследова- 
тель в области искусственного интеллекта, один из основателей лаборато- 
рии АТ в Массачусетском технологическом институте, автор классической 
книги о нейронных сетях «Перцептроны» [111]. Примечательно, что Мински 
консультировал Артура Кларка при написании и постановке его «Космиче- 
ской Одиссеи 2001» и даже весьма лестно там упоминается — см. эпиграф к 
главе 3; цитата, кстати, весьма характерная для тех оптимистических вре- 
мён. 

“Натаниэль Рочестер (Nathaniel Rochester, 1919-2001) — американский 
инженер и математик. Рочестер стоял у истоков не только искусственного 
интеллекта, но и других областей: в компании ІВМ в начале пятидесятых 
он создал первый компьютер компании 1ВМ 701, а в шестидесятые годы 
занимался криогеникой. 
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заложить основы будущей теории искусственного интеллекта. 
В заявке на спонсирование этой летней школы Маккарти пи- 
сал [106]: 
Мы предлагаем исследование искусственного ин- 
теллекта сроком на два месяца с участием десяти 
человек летом 1956 года в Дартмутском колле- 
дже, Гановер, Нью-Гемпшир. Исследование осно- 
вано на предположении, что всякий аспект обуче- 
ния или любое другое свойство интеллекта может 
в принципе быть столь точно описано, что ма- 
шина сможет его имитировать. Мы попытаемся 
понять, как обучить машины использовать есте- 
ственные языки, формировать абстракции и кон- 
цепции, решать задачи, сейчас подвластные TOAD- 
ко людям, и улучшать самих себя. Мы считаем, 
что существенное продвижение в одной или бо- 
лее из этих проблем вполне возможно, если спе- 
циально подобранная группа учёных будет рабо- 
тать над этим в течение лета. 


Вот такой незамысловатый проект — по сути ерунда, рабо- 
ты немного, десятку человек на одно лето... В реальности же 
оказалось, что искусственный интеллект — задача почти без- 
надёжная. Несмотря на многолетние усилия лучших умов ми- 
ра, создать пусть даже не лучший из умов пока не получается. 
Какой там тест Тьюринга — даже простое чтение безо всякого 
понимания оказывается для компьютера непосильной задачей, о 
чём свидетельствуют многочисленные САРТСНА-тесты на раз- 
личных сайтах". 

Проблемы с «человекоподобными» задачами появляются да- 
же в настольных играх, где, на первый взгляд, задача достаточ- 
но хорошо формализована. Компьютер может хорошо играть в 
шахматы, даже обыгрывать за доской ведущих гроссмейстеров 


\САРТСНА (Completely Automated Public Turing Test to tell Computers 
and Humans Apart) — это тест, в котором от человека требуется распознать 
написанный текст или какое-нибудь другое свойство предъявленного ему 
изображения. Такие тесты часто используются для «защиты от ботов», — 
доказательства того, что тест проходит живой человек, а не программа (бот) 
[1,2]. 
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(на сегодня рейтинг Эло лучших компьютеров составляет около 
3100-3200, а лучших живых шахматистов — 2700-2800), потому 
что в шахматах не слишком большая разветвлённость дерева 
поиска даёт большой простор для применения вычислительных 
мощностей. Но, например, в игре го, гле нужно значительно 
тоньше понимать позицию на всей доске и где умение быстро 
считать варианты не может радикально усилить игру, компью- 
теры пока не выдерживают никакой критики. Лучшие компью- 
терные программы играют в го на уровне не слишком увлечён- 
ного любителя, а профессионалам проигрывают с гигантской 
форой, доходящей до 20-25 камней (кому может чемпион мира 
по шахматам дать ферзя и двух ладей вперёд?) [23,115]. И это — 
строго формализованная игра на конечной, весьма ограничен- 
ной доске’. О какой-либо деятельности, где нужно понимать 
естественный язык, конечно, и говорить не приходится. 
Однако поле искусственного интеллекта весьма широко, и 
было бы в корне неправильно оценивать успехи отрасли сугубо 
бинарно, по факту достижения основной цели. На пути к ней 
были разработаны многие подходы, которые получили широкое 
распространение и оказались очень полезны на практике. Боль- 
шая часть этих подходов объединена под названием машинного 
обучения (machine learning). Именно ему посвящена эта книга. 


Машинное обучение и интеллектуальные агенты 


Что такое машинное обучение? Общее (хотя и не слишком 
формальное) определение таково: алгоритм является алгорит- 
мом машинного обучения, если он улучшает своё поведение по 
мере накопления опыта. Что это значит? Это значит, что алго- 
ритм обучает параметры модели либо на заранее подготовлен- 
ных тестовых примерах, либо на собственных ошибках, и со вре- 
менем решает поставленную задачу всё лучше и лучше. Некото- 
рые алгоритмы машинного обучения способны подмечать ранее 
неизвестные закономерности в данных, выделять знания (тоже 


1Позднейший комментарий: к 2008 году наметился прогресс и в го; про- 
грамма МоСо, основанная на специальном алгоритме построения дерева 
поиска, смогла вывести компьютерное го на новый уровень; правда, о ми- 
ровом господстве пока мечтать рано, но уровень где-то первого дана достиг- 
нут [46, 47|. 


18 Введение 


термин и предмет искусственного интеллекта), которых рань- 
ше не было — словом, делать то, что долгое время считалось 
прерогативой исключительно Homo Sapiens. 

Обучающиеся агенты — частный случай интеллектуальных 
агентов, которые изменяют своё поведение в зависимости от 
реакции окружающей среды. Главным отличием обучающих- 
ся агентов от всех остальных является то, что они не просто 
действуют по какой-либо программе, в которую заранее зало- 
жена реакция на разные действия среды, а улучшают, своё по- 
ведение с опытом. Иными словами, в определении алгоритма 
машинного обучения всегла присутствует требование повышать 
эффективность по ходу работы или при увеличении начальной 
обучающей выборки. 

Обучающиеся агенты всегда действуют в условиях либо 
неполной информации, либо информации, полностью обрабо- 
тать которую вычислительно нереально — иначе можно бы- 
ло бы просто выбирать оптимальное поведение, и обучать- 
ся было бы не нужно. А нетривиальные алгоритмы для обу- 
чающихся агентов появляются только тогда, когда оптималь- 
ное со статистической точки зрения поведение слишком труд- 
но вычислить полным перебором. Приведём здесь же ссыл- 
ки на главные источники по машинному обучению — книги 
5, 19, 63, 92, 101, 107-109, 113]. 

На рисунке 1.1 изображена схема (очень общая и приблизи- 
тельная) самообучающегося агента. Давайте рассмотрим основ- 
ные её элементы: 


— решатель — мозг самообучающегося агента, именно он 
получает информацию из внешнего мира и выбирает, ка- 
кие действия производить; 

— критик связывается с неким стандартом (оценкой, иде- 
алом) эффективности и определяет, насколько хорошо 
отработал агент; 

— обучающийся элемент, улучшает поведение агента, из- 
меняя его параметры в соответствии с тем, хорошо ли 
получилось у решателя (о том, что такое хорошо и что 
такое плохо, этой крохе сообщит критик); он же сообщает 
генератору задач, какой ещё нужен опыт для дальней- 
шего обучения; 
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Рис. 1.1. Схема самообучающегося агента 


Решатель 


Самообучающийся агент 


— генератор задач предлагает действия, которые приве- 
ли бы к новому, полезному опыту: во многих областях 
применения машинного обучения агенту приходится вы- 
бирать, какие ещё стратегии исследовать (а может, удо- 
вольствоваться тем, что он уже знает). 


Не во всех аппаратах маптинного обучения присутствуют все 
эти элементы, и во многих из них несколько элементов схемы 
объединяются в один. Однако схема помогает понять, как дей- 
ствует большинство алгоритмов машинного обучения. 


На чём стоит искусственный интеллект 


Искусственный интеллект вообще и машинное обучение в 
частности — поле в высшей степени междисциплинарное. В нём 
много раз использовались идеи из разных областей знания, на 
первый взгляд совершенно не похожих ни друг на друга, ни 
на информатику. В книге мы неоднократно будем указывать 
на подобные обстоятельства, а сейчас просто вкратце опишем 
главное: на чём стоит современный искусственный интеллект, 
фундамент, без которого его трудно было бы себе представить. 
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Математика, конечно, в любом случае остаётся царицей и 
служанкой любой науки. А поскольку искусственный интел- 
лект — раздел информатики, в котором речь идёт об идеали- 
зированных объектах (функциях, алгоритмах, оценках сложно- 
сти, структурах данных), без математики здесь никуда. Однако 
некоторые разделы математики встречаются в искусственном 
интеллекте значительно чаще, чем другие. 

Теорию вероятностей и статистику можно без преуве- 
личения назвать основой всего машинного обучения вообще и 
значительной доли других исследований в рамках искусствен- 
ного интеллекта. Даже если алгоритм на первый взгляд не ис- 
пользует вероятности или случайные процессы, при ближайшем 
рассмотрении наверняка окажется, что для его анализа придёт- 
ся привлекать вероятность. Об этом мы будем подробно гово- 
рить в главе 5, да и во всех остальных. 

Математическая логика пронизывает всю информатику. 
Винарная логика, созданная Джорджем Булем!, стала основ- 
ным инструментом информатики. Да и вообще информатика 
была во многом мотивирована логикой — оптимизм логицистов 
начала ХХ века, веривших, что всю математику можно автома- 
тически вывести из умело подобранных аксиом, был одной из 
отправных точек развития автоматического вывода. Апофеозом 
логицизма стал многотомный труд Альберта Уайтхеда и Бертра- 
на Рассела «Principia Mathematica» («Принципы математики»), 
в котором из аксиом выводились арифметические утвержде- 
ния. Книга эта очень похожа на автоматически порождённый 
логический вывод, и к странице 379 первого издания авторы 
наконец-то заключают: «Когда мы определим арифметическое 
сложение, из этого предложения будет вытекать, что 1 +1 = 2». 


1Ажордж Буль (George Boole, 1815-1864) — английский математик и 
философ, один из основателей информатики. Трудно рассказать о Буле 
какой-нибудь забавный случай, потому что жизнь его была на редкость 
стабильной и безынтересной — он всю жизнь проработал преподавателем 
математики, сначала в школе, потом в колледже. Трудом его жизни стал 
двухтомник «Исследование законов мышления, на которых основаны мате- 
матические теории логики и вероятностей» [20], где Буль исследовал связь 
между алгеброй, логикой и вероятностью и развил законы алгебраической 
записи логических законов и бинарной логики. Идеи Буля в ХІХ веке ни- 
кого не заинтересовали — потребовался Клод Шеннон, чтобы понять, что 
булева логика может стать основой информатики. 


Введение 21 


Правда, оптимизма логицистам изрядно поубавили теоремы Гё- 
деля! о неполноте, но задача автоматизации логического вывода 
с повестки дня не сошла. Она и по сей день остаётся одним из 
краеугольных камней не только теории доказательств, но и ис- 
кусственного интеллекта: многие аппараты должны проводить 
логический вывод (или его аналоги). Кроме того, искусствен- 
ный интеллект часто работает с различными мерами неопреде- 
лённости [57, 176, 177]. В этом ему помогают вероятностные AO- 
гики [176], основы которых заложил ещё Буль [20], и нечёткие 
логики [40,117]. 

Теория игр изучает взаимодействие агентов, каждый из ко- 
торых стремится выбрать стратегию поведения, оптимальную с 
точки зрения той или иной целевой функции. Разумеется, тако- 
го рода задачи тесно связаны с задачами машинного обучения. 
Теория игр изучает те случаи, в которых машинное обучение 
уже не обязательно: она предоставляет готовые оптимальные 
рецепты в той или иной ситуации. Однако зачастую, прежде чем 
использовать эти рецепты, нужно установить некоторые пара- 
метры ситуации, в которой находится самообучающийся агент, 
или задать принципы взаимодействия нескольких агентов. По- 
этому теория игр активно используется в алгоритмах машинно- 
го обучения. Примерно ту же роль играет и теорця управле- 
ния, которая тоже решает задачи максимизации заданной функ- 
ции. 


Курт Гёдель (Kurt Gödel, 1906--1978) — австрийский математик. В 
1924 г. поступил в Венский университет, в 1930 г. защитил диссертацию 
по математике; в своей диссертации Гёдель доказал полноту исчисления 
предикатов первой ступени, что дало надежду на доказательство непро- 
тиворечивости и полноты всей математики. Однако уже в 1931 г. Гёдель 
надежду отнял, доказав свою знаменитую теорему о неполноте. Соглас- 
но этой теореме, любая процедура доказательства истинных утверждений 
арифметики обречена на неполноту. Следовательно, внутренняя непроти- 
воречивость любой математической теории не может быть доказана иначе, 
как с помощью обращения к другой теории, использующей более сильные 
аксиомы, а значит, менее надёжной. Методы, использованные Гёделем при 
доказательстве теоремы о неполноте, сыграли в дальнейшем важную роль 
в информатике. Правда, позитивных утверждений у Гёделя было всё-таки 
больше: например, в 1938 г. он доказал, что присоединение аксиомы выбора 
и континуум-гипотезы к обычным аксиомам теории множеств не приводит 
к противоречию. 
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Как ни странно, в ряду полезных для машинного обуче- 
ния разделов математики не обойтись без теории дифферен- 
ицальных уравнений. Встречаются и динамические системы, и 
уравнения в частных производных (то есть по сути математи- 
ческая физика). Такая «тяжёлая артиллерия» обычно исполь- 
зуется для доказательства сходимости различных алгоритмов 
машинного обучения. Доходит до забавного: например, чтобы 
доказать сходимость сетей Хопфилда [67, 134] (в этой книге мы 
их, к сожалению, рассматривать не будем — следите за новыми 
публикациями), нужно начать со свободной энергии системы из 
нескольких элементарных частиц с различными спинами! 

Из нематематических дисциплин в первую очередь следует 
отметить биологию. Нейробиология — источник идей для ис- 
кусственных нейронных сетей, обучения по Хеббу и других по- 
добных алгоритмов, а генетика породила обширную область 
генетических алгоритмов и генетического программирования. 
Здесь ещё стоит отметить, что всё та же генетика сейчас предо- 
ставляет большое количество интересных задач для информа- 
тики вообще и машинного обучения в частности: работа по рас- 
шифровке геномов различных биологических видов и выделе- 
нию из них полезной информации немыслима без компьюте- 
ров, ведь геном — это последовательность, состоящая порой из 
миллиардов нуклеотидов, которую ещё нужно построить из об- 
рывков, а затем искать в ней какие-либо закономерности. По- 
дробнее о биоинформатике вообще можно прочесть в [114,161], 
а конкретно о связи биоинформатики и машинного обучения — 
в [9,81]. Мы же только заметим, что подобную роль — постанов- 
ку хорошо определённых, полезных и сложных задач — в раз- 
витии того или иного раздела науки трудно переоценить. Если 
нет чётко поставленных целей, у ведущих учёных обычно нет и 
большого интереса этой наукой заниматься, не говоря уже о том, 
что задачи, полезные человечеству вообще и фармацевтическим 
компаниям в частности, могут привлечь к исследованиям зна- 
чительные деньги. 

Наконец, кроме биологии, искусственному интеллекту по- 
могает также и психология. Точнее, в основном когнитиви- 
стика (cognitive science) — раздел психологии, изучающий 3a- 
коны разума, интеллекта, поведения мыслящих субъектов. Не 


Введение 23 


стоит забывать, что искусственный-то, конечно, искусственный, 
но всё-таки интеллект: чем лучше мы понимаем, как работает 
наш собственный мозг и наше собственное мышление, тем бо- 
лее вероятно, что мы сможем и сами сделать нечто подобное. 
Похожую роль играет и лингвистика, хотя она, в некоторых 
аспектах тесно смыкаясь с математической логикой, в основном 
направлена конкретно на то, чтобы обучить компьютер пони- 
мать естественные языки. Однако задача эта столь сложна и 
многогранна, что её решение или даже путь к нему оказывают 
влияние на весь искусственный интеллект. 

Конечно, математика и информатика остаются для искус- 
ственного интеллекта базовыми дисциплинами. Пока мы не по- 
строим математические модели, не изучим их свойства, не снаб- 
дим их соответствующими алгоритмами и структурами данных, 
никакой автоматизации (то есть никакого искусственного интел- 
лекта) у нас не получится. 

Однако, как мы увидели на вышеприведённых примерах, ис- 
кусственный интеллект — точка пересечения очень многих об- 
ластей знания. Список, который мы привели, наверняка можно 
продолжить. Кто знает, может быть, вы, читатель, сможете при- 
внести в машинное обучение новые методы, позаимствовав их 
основные идеи из совершенно других, не перечисленных здесь 
областей. Если так — это станет ещё одним доказательством то- 
го, насколько многообразен мир искусственного интеллекта. 


Глава 1 


Деревья принятия решений 


— А всё из-за того, — признался он наконец, когда 
перекувырнулся ещё три раза, пожелал всего хоро- 
шего самым нижним веткам и плавно приземлился 
в колючий-преколючий терновый куст, — всё из-за 
того, что я слишком люблю мёд! 


Винни-Пух и Все-Все-Все 
Алан Александр Munn в переводе Бориса 
Заходера 


Дома у Винни-Пуха стоит целый шкаф пустых горшочков. Кри- 
стофер Робин только что пригласил медвежонка на обед, и Винни 
наверняка знает, что у него получится на обратном пути захватить 
с собой немножко мёда. Нужно только понять, какой пустой горшо- 
чек (воистину полезная вещь!) для этого выбрать. 

Но вот незадача: некоторые из горшочков треснули, а в некото- 
рых Винни долго хранил крысиный яд и не очень тщательно мыл. 
Винни (как следует поразмыслив, конечно) понимает, что ни трес- 
нутые, ни ядовитые горшочки под мёд лучше не использовать, ина- 
че либо испортится мёд, либо испортится сам Винни. Винни вы- 
бирает горшочек, который и не треснул, и без крысиного яда, и 
радостно идёт в гости к Кристоферу Робину. 
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Говоря математически, медвежонок Пух выявил два атрибута 
горшочка и построил два логических правила: «Если горшочек 
треснул — мёд не наливать» и «Если в горшочке был крысиный 
яд — мёд не наливать». Таким образом, горшочки оказались рас- 
классифицированы относительно атрибутов «треснул» и «из-под 
яда» и целевой функции «можно наливать мёд». 

Но и это ещё не вся история. 

На самом деле Винни, конечно, давно забыл, в каких именно 
горшочках у него был крысиный яд. Он всего лишь предполагает 
(бедный, наивный медвежонок...), что его горшочки в этом смысле 
похожи на горшочки из шкафа Совы, на которых она уже написа- 
ла — она умеет! — был в них яд или нет. Винни должен внимательно 
изучить шкаф Совы и понять принцип — Пух уверен, что принцип 
есть — которым Сова руководствовалась при этом. Например, «ес- 
ли горшочки синенькие и с белой полоской, то в них был крысиный 
яд, а если стеклянные и объёмом в поллитра, то не было». А 3a- 
тем медвежонку предстоит экстраполировать эти закономерности 
на свой собственный шкаф... на этом, пожалуй, милостиво опустим 
занавес. 

То, что Винни только что сделал, мы должны будем научить- 
ся делать автоматически, на основе достаточно большого массива 
данных с разными атрибутами. 
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Рассмотрим некоторую предметную область. Предположим, 
что мы хотим в этой предметной области что-нибудь раскласси- 
фицировать, и у нас есть некоторые атрибуты, по которым это 
можно было бы сделать. Для решения этой задачи можно при- 
менять много разных идей; в этой главе мы рассмотрим один из 
не слишком сложных, но зачастую полезных аппаратов. 

Деревья принятия решений (decision trees) используются 
для решения задач классификации данных или, иначе говоря, 
для задачи аппроксимации заданной булевской функции (бу- 
левская функция — это функция, у которой всего два значения: 
true и false; алгебраисты скажут, что она действует в F2). Carya- 
ция, в которой применяются деревья принятия решений, обычно 
выглядит так: есть много случаев, каждый из которых описыва- 
ется некоторым конечным набором дискретных атрибутов, и в 
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каждом из случаев дано значение некоторой неизвестной булев- 
ской функции, зависящей от этих атрибутов. Задача — создать 
достаточно экономичную конструкцию, которая бы описывала 
эту функцию и позволяла классифицировать новые, поступаю- 
щие извне данные. 


ПРИМЕР 1.1. Постановка задачи классификации 

Предположим, что нас интересует, выиграет ли футбольный клуб 
«Зенит» (Санкт-Петербург) свой следующий матч. Мы знаем, что это 
зависит от ряда параметров; перечислять их все — задача безнадёж- 
ная, поэтому ограничимся основными: 


— выше или ниже находится соперник по турнирной таблице; 
— дома ли играется матч; 

— пропускает ли матч кто-либо из лидеров команды;! 

— идёт ли дождь. 

У нас есть некоторая статистика на этот счёт — см. табл. 1.1 (сов- 
падения случайны). Мы хотим предсказать, выиграет ли «Зенит» в 
следующей игре. Предположим, что сегодняшний соперник стоит ни- 
же «Зенита», игра происходит на выезде, лидеры на месте, а дождя 
нет. Эта ситуация описана в последней строке таблицы, но исход, пра- 
вильный ответ нам пока неизвестен. Как предсказать исход? На этот 
вопрос могут ответить деревья принятия решений. 


Разумеется, если мы сможем обучить компьютер обрабаты- 
вать данные и предсказывать результат в таких ситуациях, это 
будет типичной постановкой задачи машинного обучения. При 
этом качество наших прогнозов должно быть тем лучше, чем 
больше информации предоставлено. Посмотрим, как деревья 
принятия решений справляются с такими задачами. 


$ 1.2. Структура дерева принятия решений 


Продолжим рассматривать пример 1.1 и попытаемся постро- 
ить настоящее дерево принятия решений. Напомним на всякий 


Этот пример мы придумали в конце 2006 года, когда игра Александра 
Кержакова и Андрея Аршавина определяла лицо «Зенита» в подавляющем 
большинстве матчей. С тех пор уже (начало 2009) многое изменилось, и 
сегодняшний «Зенит» играет по-другому. Однако, поскольку автоматически 
следить за футбольной конъюнктурой эта книга всё равно не сможет, мы 
решили оставить этот пример как есть. 
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ТАВЛИЦА 1.1. Как играет «Зенит» 


Соперник | Играет Лидеры Дождь | Победа 
Выше Дома На месте Да Нет 
Выше Дома На месте Нет Да 
Выше Дома Пропускают | Нет Да 
Ниже Дома Пропускают | Нет Да 
Ниже В гостях | Пропускают ! Нет Нет 
Ниже Дома Пропускают | Да Да 
Выше В гостях | На месте Да Нет 
Ниже В гостях | На месте Нет 222 


случай, что в теории графов деревьями называются графы, B 
которых нет циклов даже без учёта направления рёбер, а ли- 
стьями называются вершины дерева, из которых не исходит 
ни одного ребра (на рис. 1.2 листьями являются все вершины с 
0 или 1). 

Так вот, в узлах дерева принятия решений, не являющихся 
листьями, находятся атрибуты, по которым различаются слу- 
чаи. В листьях находятся значения целевой функции. А по рёб- 
рам мы будем спускаться, чтобы классифицировать имеющиеся 
случаи. 

Для начала просто используем атрибуты в порядке, в KOTO- 
ром они указаны в таблице. Тогла у нас получится структура, 
изображённая на рис. 1.2 (1 означает победу, 0 — поражение или 
ничью). 

Для классификации новых примеров нужно пройти по дере- 
ву сверху вниз и определить, в какой из листьев попадает инте- 
ресующая нас ситуация (чем-то это нам напоминает тот долгий 
путь, который проделал Винни-Пух по милости неправильных 
пчёл). 


ПРИМЕР 1.2. Использование дерева принятия решений — _ 

Вспомним условия примера 1.1. Соперник стоит ниже «Зенита», 
следовательно, спускаемся налево, матч проходит в гостях — спуска- 
емся направо и получаем, что «Зенит», судя по нашему дереву, этот 
матч выиграть не должен. 
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Соперник в 


турнирной 
таблице 


Ниже Выше 
Матч проходит == 
Дома В гостях Дома В гостях 
А 
© Лидеры 
команды 


Пропускают 
На месте ропу 


матч 
Идёт дождь Ò 


Aa Нет 


Рис. 1.2. Первый вариант дерева принятия решений 
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Для того чтобы реализовать машинное обучение, нужно про- 
сто видоизменять дерево принятия решений в соответствии со 
вновь поступающей информацией. Например, если бы в выше- 
описанном случае «Зенит» проиграл, ничего менять было бы не 
нужно. Но если бы выиграл, то дерево принятия решений при- 
шлось бы дополнить ещё одним узлом, и оно приняло бы вид, 
изображённый на рис. 1.3. 

«Качество» дерева принятия решений напрямую связано с 
его глубиной: чем меньше глубина, тем быстрее можно по дере- 
ву спуститься и получить ответ. Построенное нами дерево дале- 
ко не идеально — например, глубина его равна четырём. Чтобы 
сделать его компактнее, мы могли бы взять за основу другой ат- 
рибут. Давайте попробуем поместить в корень вопрос о том, идёт 
ли дождь во время матча. В случае, если дождя нет, следующим 
атрибутом будет положение соперника в турнирной таблице, а в 
случае, если дождь идёт, мы будем смотреть на то, проходит ли 
матч дома или в гостях. В таком случае глубина нашего дерева 
будет равна всего лишь двум (см. рис. 1.4), но оно по-прежнему 
удовлетворяет всем тестовым примерам. Легко убедиться, что 
ни один атрибут сам по себе не может однозначно разделить 
значения функции, поэтому дерева глубины 1 построить не по- 
лучится. Следовательно, изображённое на рис. 1.4 дерево опти- 
мально относительно глубины (оптимальное дерево, конечно, не 
обязано быть единственным). 
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Введённое в теорию информации Клодом Шенноном! поня- 
тие энтропии играет важнейшую роль в современной инфор- 
матике. Пригодится оно и для деревьев принятия решений; но 


\Клод Шеннон (Claude Shannon, 1916-2001) — американский инженер 
и математик, отец теории информации и теории кодирования. Он учился на 
инженера-электрика и быстро понял, что к электрическим схемам можно 
с успехом приложить идеи Джорджа Буля; его институтский диплом [143] 
называют самым важным и самым знаменитым магистерским дипломом 
двадцатого века. В нём он развил теорию электрических схем, способных 
решать логические задачи, заложив основу архитектуры будущих компью- 
теров. Затем он фактически с нуля создал теорию информации, основанную 
на понятии энтропии [144]. У Шеннона также немало достижений в искус- 
ственном интеллекте и криптографии. 
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Соперникв 


турнирной 
таблице 


Ниже Выше 
Матч проходит Матч проходит 
Дома В гостях Дома В гостях 
Лидеры Лидеры 
команды команды 
Пропускают Пропускают 
На месте матч На месте матч 


© == Го 
Да Нет 


Рис. 1.3. Дерево после добавления ещё одного случая 
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Идёт дождь 
да Нет 
Соперник в 
турнирной Матч проходит 
таблице 
Ниже Выше Дома В гостях 


Рис. 1.4. Оптимальное дерево принятия решений 


сначала мы напомним читателю о том, что такое энтропия в 
интересующем нас дискретном случае, — для более фундамен- 
тального и математически строгого изложения как дискретной, 
так и непрерывной теории энтропии можно порекомендовать, 
например, книгу [171]. 

Философски говоря, энтропия — это мера неопределённости 
события. На самом деле, даже такое абстрактное и, на первый 
взгляд, ничего строго математического не дающее определение 
позволяет выяснить, как должна выглядеть функция энтропии, 
практически не оставив свободы выбора. Для этого нужно про- 
сто подумать, какие интуитивные требования мы предъявля- 
ем к мере неопределённости. Давайте попробуем эти интуитив- 
ные требования изложить, а затем формализовать (формали- 
зации ниже будут пронумерованы от ИМТ до ИМЗ, от слов 
«uncertainty measure» ). 

Во-первых, примем естественное предположение, что неопре- 
делённость зависит не от самих событий, а только от их ве- 
роятностей. Во-вторых, понятно, что мера неопределённости Л 
должна быть равна нулю, если событие точно произойдёт: 
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ИМТ. Л) = 0. 

В-третьих, если одно событие имеет меньшую вероятность, чем 
другое, то наступление первого из них несёт больше информа- 
ции, сильнее уменьшает неопределённость; значит, и энтропия 
у него должна быть больше: 


ИМ2. Если х > у, то A(x) < Д(у), то есть Л как функция 
монотонно убывает. 


И, наконец, в-четвёртых, логично предположить, что если два 
события независимы, то наступление каждого из них уменьша- 
ет общую неопределённость независимо от другого. Иными сло- 
вами, если два независимых события наступают одновременно 
(вероятность этого равна произведению их вероятностей), то 
это уменьшает неопределённость на величину, равную сумме 
неопределённостей этих событий: 

ИМЗ. Л(ху) = A(x) + А(у). 

Если ещё добавить желательное условие непрерывности, то эти 
условия, особенно ЧМЗ, будут фактически предопределять вид 
меры неопределённости — она обязана быть логарифмической 
функцией. А энтропия случайной величины — это матема- 
тическое ожидание её меры неопределённости. В дискретном 
случае это приводит нас к слелующему определению. 


v v A 
ОПРЕДЕЛЕНИЕ 1.1. Энтропия случайной величины & со 


множеством возможных исходов {&1,... п} определяется как 
n n 
R 1 
H(Ê) = У _р(&)1од› тз У р(&)1082р(&). 
1—1 r i=l 


Стоит отметить, что энтропия не зависит OT собственно CAY- 
чайной величины, а только от ее распределения рг. В конечном 
случае разумно будет задать энтропию на векторе Рг значений 
вероятностей дискретных исходов: 


п. 
Н(Рг) =- > P$ log; P$. 
1=1 
Ещё одно важное свойство, напрямую вытекающее из ИМЗ, 
состоит в том, что энтропия, задаваемая совместным распреде- 
лением двух случайных величин, максимальна тогда, когда эти 
две случайные величины независимы. 
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ПРИМЕР 1.3. Энтропия двух случайных величин 
& A AN 
Предположим, что у нас есть две случайные величины & и 1р, y 
каждой из которых два исхода (обозначим их через 0 и 1). Пусть 


рё(0) pÊ =0) 0,4, 
рф(0) pp = 0) 0,8. 


Тогда их энтропия вычисляется следующим образом: 


A 


Н(ё) = —р(0)1од›р;(0)—р;(1)1од›р;(0) = 0,2923, 


Н(ф) = =рф(0)1082р(0) —р$(1)1082р$(0) = 0,2173. 


При этом энтропия тем больше, чем ближе вероятности исходов друг 
к другу; для случайной величины с двумя равновероятными исходами 
энтропия была бы равна —0,5 log, 0,5 — 0,5 log, 0,5 ~ 0,3010. 

Вычислим теперь совместную энтропию этих двух случайных со- 
бытий в двух разных случаях. В первом случае события будут неза- 
висимы, то есть 


pÊ =£, Ô =) = pelë )pg $). 


В этом предположении энтропия будет равна 


Н(ЕФ) = рг(0)р, (0) log2(p 


) 

1062 (рғ (0)рф(1))+ 
1 #(1)р(0))+ 

1 


С другой стороны, давайте подсчитаем энтропию в обратном пред- 
положении: пусть теперь событие {& = 0} является подмножеством 
^^ 
события {p = 0}, то есть 


р(#=0,ф =0)=04, р(Ё=Т, 
р(&=0,ф=1) =0, р(@=1,ф=1)=0,2. 


Тогда энтропия будет вычисляться так (функцию xlogx в таких 
случаях доопределяют в нуле по непрерывности, то есть 01060 = 0): 


ав 0) =04, 
1,0 = 
(Ф 


Н) =р(& =0,$ = 0) 10 р(&= 0,0 = 0)+ 
+р(& = 1, = 0) log, p(Ê = 1,ф = 0)+ 


A х 


+р@ =0,$ =1)1ов›р(® =0,$ = 1)+ 
+р(& =1,ф =1) log; pÊ =1,$ = 1) = 0,4580. 


Как видно, она получилась меньше, что подтверждает тезис о том, 
что энтропия максимизируется на независимых событиях. 
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0.5 І р 


Рис. 1.5. Зависимость энтропии от пропорции 


Понятие энтропии тесно связано с теорией информации. С 
этой точки зрения энтропия представляет собой среднее коли- 
чество битов, которые требуются, чтобы закодировать атрибут 
S у элемента множества А. Если вероятность появления $ равна 
1/2, то энтропия равна 1, и нужен полноценный бит; а если 5 
появляется не равновероятно, то можно закодировать последо- 
вательность элементов А более эффективно. Мы не будем углуб- 
ляться здесь в теорию кодирования; заинтересованный читатель 
сможет найти гораздо больше информации и об энтропии, и об 
оптимальных кодах в обширной существующей литературе, на- 
пример в [14, 71, 171,174]. 

Вернёмся теперь к деревьям принятия решений. Интуитивно 
понятно, что для того, чтобы получить оптимальные деревья 
принятия решений, нужно на каждом шаге выбирать атрибуты, 
которые «лучше всего» характеризуют целевую функцию. Это 
требование формализуется как раз через понятие энтропии. 

Энтропия зависит от пропорции, в которой разделяется мно- 
жество. По мере возрастания этой пропорции от 0 до 1/2 энтро- 
пия тоже возрастает, а после 1/2 — симметрично убывает (в 
случае деления на две части; см. рис. 1.5). А в случае деления 
множества на несколько частей энтропия максимальна тогда, 
когда части равновеликие, и равна нулю, когда одна из частей 
занимает всё множество. 

Всё это приводит нас к мысли о том, что при выборе атри- 
бута для классификации нужно выбирать его так, чтобы после 
классификации энтропия в каждом потомке (потомком узла х 
называется узел, в который из х ведёт ребро) стала как можно 
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меньше (свойство $ в данном случае — значение целевой булев- 
ской функции). Идеальный случай — когла в каждом потомке 
энтропия равна нулю, то есть функция полностью классифици- 
рована текущим атрибутом. Энтропия при этом будет разной в 
разных потомках, и общую сумму нужно считать с учётом того, 
сколько исходов осталось в рассмотрении в каждом из потомков. 
Общепринятое в теории деревьев принятия решений определе- 
ние выглядит так. 


ОПРЕДЕЛЕНИЕ 1.2. Рассмотрим множество А, элементы KO- 
торого характеризуются свойством $. Пусть при этом элемен- 
ты А классифицированы посредством некоторого атрибута О, 
имеющего q возможных значений. Тогда прирост информа- 
ции (information gain) определяется как 


А 


Gain(A,Q) = N 


H(A;,S), 
где А; — множество элементов А, на которых атрибут О имеет 
значение і, а |A| — мощность множества А. 


Теперь можно просто применить так называемый жадный 
алгоритм. Жадные алгоритмы на каждом шаге стараются BHI- 
бирать максимальный прирост целевой функции; для некото- 
рых задач это может привести к глобальной неоптимальности 
(иногда нужно сначала час потерять, чтобы потом за пять ми- 
нут долететь), но в нашем случае всё будет хорошо. Жадный 
алгоритм на каждом шаге выбирает тот атрибут, для которого 
прирост информации максимален. 


ПРИМЕР 1.4. Вычисление энтропии и прироста информации 

Попытаемся определить оптимальный атрибут для примера 1.1. 
Вычислим исходную энтропию (для максимизации прироста это, ко- 
нечно, не нужно, но всё же): 


3 3 
7 105; 7 = 0,9852. 


Теперь вычислим приросты информации для различных атрибутов: 


4 4 
Н(А Победа) = 7 108; 7 


Саш(А Соперник) = Н(А Победа)— 


4 
— УН(Авыше Победа) — УН(Аньже Победа) = 0,9852— 
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а в 1 
1 1 1 1 = 0,0202. 
7 ( 2.982 7 58:3) > ( 3 °23 зе: з) кыш 


Мы явно выбрали на рис. 1.2 не слишком удачный атрибут для корня 
дерева... 


Саш(А,Играет) = Н(А,Победа)— 


5 2 
— 7 Н(Адома,Победа) — УН(Аь гостях, Победа) = 0,4696. 
Саш(А Лидеры) = Н(А Победа)— 
3 4 
= = Н(Ава месте,Победа) ки —7Н(Апропускают, Победа) = 0,1281 * 
Саш(А Дождь) = Н(А,Победа)— 
3 4 
— 7 Н(Ада,Победа) — 7 Н\(Анет,Победа) = 0,1281. 
Итак, вычисление прироста информации подсказывает нам, что 
нужно сначала классифицировать по тому, домашний был матч или 
гостевой. Это выглядит логично: одна из веток оборвётся сразу («Зе- 
нит» в нашем примере ещё не выиграл ни одного гостевого матча), а 
во второй только в одном случае из пяти результат будет отличаться 
от других. Однако если мы воспользуемся нашим алгоритмом дальше, 
то глубина этого дерева будет равна трём: одного атрибута окажется 
недостаточно, чтобы выделить этот один случай из пяти. Но листьев 
у дерева останется, как и на рис. 1.4, четыре. 


$ 1.4. Деревья принятия решений и булевские функции 


Мы уже говорили о том, что основную задачу, которую ре- 
шают деревья принятия решений, можно сформулировать как 
задачу аппроксимации некоторой не полностью заданной булев- 
ской функции. Но и наоборот, дерево принятия решений мож- 
но прочесть как булевскую функцию. Она будет естественным 
образом выражаться в конъюнктивной нормальной форме (в 
форме дизъюнкции конъюнкций). Для этого нужно выписать 
конъюнкции атрибутов, стоящих на рёбрах каждого из путей, 
приводящих в значение 1, а затем объединить их все дизъюнк- 
цией. При таком подходе КНФ равна единице тогла и только 
тогда, когда реализуется путь, приводящий в узел с меткой 1. 
Например, дерево на рис. 1.2 соответствует функции 
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—J © 


0 1 


0 | 
У 
0 1 O 1 0 1 
а 
Рис. 1.6. Деревья для булевских функций: 
а = хм (чЛ 2); 6 — (хуу) Л (9У 2) 


6 


((Соперник = Ниже) Л (Играет = Дома)) У ((Соперник = Выше) 
Л (Играет = Дома) Л (Лидеры = Пропускают)) № 
V ((Соперник = Выше) Л (Играет = Дома) 
Л (Лидеры = На месте) Л (Дождь = Нет)) Р 


А дерево на рис. 1.4 — функции 
((Лождь = Да) А (Соперник = Ниже)) № 
№ ((Дождь = Нет) Л (Играет = Дома)) з 


Обе функции корректно описывают один и тот же набор 
данных. Какую из них предпочесть? В $ 5.5 мы увидим, что 
без априорных предположений математических оснований для 
выбора нет. Но более короткая гипотеза кажется более правдо- 
подобной — бритву Оккама все мы усвоили прочно.! 


1Кстати, о бритве Оккама мы тоже поговорим — в $ 5.10; окажется, что 
этот принцип вполне допускает математическую трактовку. 
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ПРИМЕР 1.5. Деревья и булевские функции 
На рис. 1.ба изображено дерево принятия решений, соответству- 


ющее функции 
xV (y AZ). 
A на рис. 1.66 — дерево, соответствующее функции 
(х/ у) (92). 


Обратите внимание, что функцию нужно сначала привести к дизъ- 
юнктивной нормальной форме: 


(хМч) Л (У\У 2) = (хЛА У (хлуд) М (б ^2). 


$ 1.5. Алгоритм ID3 


Сейчас мы сведём всё то, о чём до сих пор говорили, в еди- 
ный рекурсивный алгоритм для построения дерева принятия 
решений. Этот алгоритм носит название 103 и был придуман 
Axonom Квинланом (John В. Quinlan) [130]. 

Алгоритм выписан на рис. 1.7. В нём, по сравнению с преды- 
лущими примерами, встречаются два тривиальных, но важных 
обобщения. Во-первых, алгоритм обрабатывает ситуацию, когла 
одному и тому же набору атрибутов соответствует несколько 
случаев с разными исходами (например, «Зенит» сыграл в од- 
них и тех же условиях два матча, но один проиграл, а другой 
выиграл). В такой ситуации мы рано или поздно исчерпаем все 
атрибуты, которые могли бы разделить исходы, а исходы всё 
ещё будут разными. Для этого служит пункт 4 алгоритма — 
решение будем принимать простым большинством. 

Другое обобщение — атрибут теперь может иметь несколько 
значений, более двух, как было у нас раньше. Например, у атри- 
бута «Дождь» могут быть варианты «Нет», «Слабый» и «Ли- 
вень». К тому же может так случиться, что какой-то из этих 
вариантов не реализуется; в таком случае мы заполняем соот- 
ветствующий лист в зависимости от того, каких исходов было 
больше в его предке (за это отвечает пункт 76). 


$ 1.6. Реализация ID3 на языках Python и Ruby 


В этом параграфе мы опишем программную реализацию ал- 
горитма ID3 на языках Python и Ruby. Программа достаточно 
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ID3(A,S,Q): 
1. Создать корень дерева. 
2. Если 5 выполняется на всех элементах А, поста- 
вить в корень метку 1 и выйти. 
3. Если 5 не выполняется ни на одном элементе А, 
поставить в корень метку 0 и выйти. 
4. Если О = 0, то: 
а) если 5 выполняется на половине или большей 
части А, поставить в корень метку 1 и выйти; 
6) если S не выполняется на большей части А, 
поставить в корень метку 0 и выйти. 
5. Выбрать О Е О, для которого Саіп(А,О) макси- 
мален. 
6. Поставить в корень метку О. 
7. Аля каждого значения 4 атрибута О: 
а) добавить нового потомка корня и пометить со- 
ответствующее исходящее ребро меткой q; 
6) если в А нет случаев, для которых О прини- 
мает значение q (т.е. |А | = 0), то 
(1) пометить этого потомка в зависимости 
от того, на какой части А выполняется 
5 (аналогично пункту 4), 
(1) иначе запустить ГОЗ(Аа,5,О \ {Q} и до- 
бавить его результат как поддерево с 
корнем в этом потомке. 


Рис. 1.7. Алгоритм ID3 


большая, причём значительную её часть занимает чтение и об- 
работка исходного текстового файла и вывод в файл результа- 
тов. 

Тем не менее, мы приводим её целиком по двум причинам. 
Во-первых, для того, чтобы читатель освоился с работой со стро- 
ками и текстовыми файлами в Python и Ruby. Во-вторых, для 
того, чтобы привести пример полной, реально работающей про- 
граммы. Сейчас это, конечно, уже не актуально, но в 1980-х 
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годах Дональда Кнута! специально просили издать исходный 
код его системы ТЕХ (которая, кстати, использовалась и для 
подготовки этой книги к публикации), потому что это был бы 
первый пример полностью изданного и полностью прокоммен- 
тированного кода достаточно сложной программы. Кнут так и 
сделал [83]. 

Программа обрабатывает только бинарные атрибуты. Фор- 
мат входного файла таков (построчно): 


— число атрибутов п; 
— п строк формата 


«[Название] [Значение 1] [Значение 0]»; 


— название целевого атрибута; 
— число тестовых примеров т; 
— m строк формата 


«[атрибут1=значение1| ... [атрибут =значениен |». 


Имя файла подаётся в качестве первого параметра функ- 
ции арр1у103(...); второй её параметр — имя файла, куда mpo- 
грамма запишет результат своей работы. Результатом является 
дерево, уровни которого отлеляются табуляциями. Например, 
входной файл, соответствующий примеру 1.1, будет выглядеть 
так: 


5 

Opponent Higher Lower 
Match Home Away 
Leaders Play Pass 
Rain Yes No 

Victory Yes No 
Victory 

7 


1 Дональд Кнут (Donald Knuth, р. 1938) — один из самых знамени- 
тых представителей современной информатики. Он был одним из отцов- 
основателей теории сложности, математического анализа сложности ал- 
горитмов. Первые три тома его известнейшего труда — «Искусство програм- 
мирования» — вышли в конце 1960-х, на заре computer science как науки, и 
до сих пор читаются и переиздаются [84-86] — долговечность, просто неслы- 
ханная для информатики. Кнут сейчас (2009) по кусочкам выпускает чет- 
вёртый том (Enumeration апа Backtracking) и планирует взяться за пятый 
(Syntactical Algorithms). Кроме того, Дональд Кнут — автор популярней- 
шей, особенно в точных науках, издательской системы ТЕХ [82, 83]. 
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Opponent=Higher Match=Home Геа4егз=Р1ау Каіп=Үеѕ Victory=No 
Opponent=Higher Match=Home Leaders=Play Rain=No Victory=Yes 
Opponent=Higher Match=Home Leaders=Pass Rain=No Victory=Yes 
Opponent=Lower Match=Home Leaders=Pass Rain=No Victory=Yes 

Opponent=Lower Маїсһ=Амау Leaders=Pass Rain=No Victory=No 

Opponent=Lower Match=Home Leaders=Pass Rain=Yes Victory=Yes 
Opponent=Higher Match=Away Leaders=Play Rain=Yes Victory=No 


А результат применения applyID3(...) к этому файлу вы- 
глядит так (как мы и предупреждали выше, дерево получится 
глубины 3): 

Match=Home 

Leaders=Play 

Rain=Yes 
0 
Rain=No 
1 
Leaders=Pass 
1 
Match=Away 
0 


'Теперь — собственно текст программы. 


Листинг 1.1. 103 с бинарными атрибутами на языке Руїһоп 


def ParseAttributes (infname) : 
f = open(infname,’ r’) 
attr,attrnames ,tests,attrvals = {},[],[],{} 
attrnum = int(f.readline()) 
for і іп хгапре (аїёгпит): 
ЕМогаз = Ё.геаӣ1іпе () .ѕр11+() 
attrnames .аррепа (ЁМогаз [0]) 
attr[fWords[0]] = [і,#Могаѕ [1] ,fWords [21] 
аї+гта15 [#Могаѕ [1] ] ,attrvals [Могаз [2]1 = 1,0 
пит = аїїг[#.геаа1іпе() .зёгір() 110] 
testnum = іп (#.геад1іпе()) 
for і іп хгапре (беѕїпит): 
ЕМогаз = Ё.геад1іпе () .ѕр11+() 
test = [0 for i іп хгапре(аїёгпит)] 
for j іп xrange(attrnum) : 
attrib = fWords[j][:fWords[j].find(°=°)] 
value = fWords [j] [#Могаѕ [3] .Ғіпа(®=®) + 
1:len(fWords[j])] 
test[ attr[attrib] [0] 1 = attrvals [value] 
tests .append(test) 
f.close() 
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return [attrnames ¿attr , $ез%з пип] 
def gain(tests,attrnum,num) : 
import math 
def entropy (array) : 
def log2(x): return math.log(x)/math.log(2) 
neg = float (1еп(#і1+ег(1апЬда х: (x[num]==0) ‚аггау))) 
tot = float (1еп(аггау)) 
if ((neg==tot) or (neg==0)): return 0 
return -(neg/tot)*log2(neg/tot) 
-((tot-neg)/tot)*log2((tot-neg)/tot) 
res = 0 
for i in xrange(2): 
arr = filter(lambda х: (x[attrnum]==i) tests) 
res += entropy (arr)*len(arr)/float (len(tests)) 
return entropy (tests)-res 


def ID3(tests,num,f,tabnum,usedattr,attrnames,¿attr): 
def findgains (x): 
if usedattr[x]: return 0 
return gain(tests,x,num) 
def fwriteline(x): f.write(?\t?’*tabnumtx+’\n’) 
def majority(): 
neg = len(filter (lambda х: (x[num]==0) ,tests)) 
pos = len(filter (lambda х: (x[num]==1) ,tests)) 
if (neg>pos): return ’0’ 
else: return ?1? 
gains = map(findgains,xrange(len(tests[0]))) 
maxgain = gains .index (шах (ваіпѕ)) 
if (gains [шахраіп]==0): 
fwriteline(majority()) 
return 
arrpos=filter (lambda х: (х[пахра1п]==1) ,+еѕїѕ) 
arrneg=filter (lambda х: (х[пахра1п]==0) ,+еѕїѕ) 
newusedattr=[(usedattr[i] or (i==maxgain)) 
for i in xrange(len(usedattr))] 
fwriteline (attrnames [maxgain] + ?=? + 
attr [attrnames [maxgain]] [1]) 
if (len(arrpos)==0): 
fwriteline(?’\t’+majority()) 
else: 
103 (аггроѕ, пип, f ,tabnum+1,newusedattr,attrnames ¿,attr) 
fwriteline (attrnames [maxgain] + ?=? + 
attr [attrnames [maxgain]] [2]) 
if (len(arrneg)==0): 
fwriteline(?’\t’+majority()) 
else: 
ID3 (arrneg,num,f ,tabnum+1 ,newusedattr,attrnames,¿attr) 
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def applyID3(infname,outfname) : 
parsed = ParseAttributes (infname) 
attrnames, attr = parsed[0], parsed[1] 
tests, num = parsed[2], parsed[3] 
f = open(outfname,’ w’) 
usedattr = [(i==num) for i in xrange(len(attr))] 
ID3(tests,num,f,0,usedattr,attrnames,¿,attr) 


И реализация той же программы с теми же форматами вход- 
ных и выходных файлов на Ruby: 


Листинг 1.2. 103 с бинарными атрибутами на языке Ruby 


def ParseAttributes (infname) 
f = open(infname, ?г?) 
attr, attrnames, tests = {}, [|], O 
attrvals, attrnum = {}, f.readline.to_i 
(0...attrnum).each{ lil 
fWords = f.readline.split 
attrnames[i] = fWords [0] 
attr[fWords[0]] = [i, fWords[1], fWords [21] 
attrvals[fWords[1]], attrvals[fWords[2]] = 1, 0 
} 
num = attr[f.readline.strip] [0] 
testnum = f.readline.to_i 
(0...testnum).each{ lil 
test = (0...attrnum).map{ 0 } 
f.readline.split.each{ |wl 
attrib, value = м.зр114(?=?) 
test[ attr[attrib] [0] ] = attrvals [value] 


} 

tests[i] = test 
} 
f.close 


[attrnames, attr, tests, num] 
end 


def gain2(tests, attrnum, num) 
def elog(a, b) 
if (a == b) or (a == 0) then 0 
else (a / b) * Math.log(a / b) / Math.log(2) end 
end 
def entropy (array ‚ пит) 
neg = array.find_all{ |x| x[num] == 0 }.size 
tot = array.size.to_f 
- elog(neg, tot) - elog(tot - neg, tot) 
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end 
тез, splitinfo = 0, 0 
for i in (0..1) 


arr = tests.find_all{ |t| t[attrnum] == i } 
res += entropy(arr, num) * arr.size / tests.size.to_f 
splitinfo -= elog(arr.size, tests.size.to_f) 


end 

splitinfo = -1 if splitinfo == 

(entropy (tests, num) - res) / splitinfo 
end 


def ID3(tests, num, f, tabnum, usedattr, attrnames, attr) 
fwriteline = proc{ |х| 
f.write("\t" * tabnum + "#{x}\n") 
} 
def majority(tests, num) 
neg, pos = 0, 0 
tests.each{ |+ | 
if [пиш] == 0 then пер += 1 else роз += 1 епа 
} 
if neg > роз then ?0? else ?1? епа 
епа 
gains = (0...+еѕіѕ [0].ѕіле).шар{ |х| 
if usedattr[x] then 0 else gain2(tests, х, пит) end 
} 
maxgain = gains .index (gains .max) 
if gains.max == 
fwriteline.call(majority(tests, num) ) 


return 
end 
аггроѕ, arrneg = tests.partition{ |t| t[maxgain] == 1 } 
newusedattr = Array .new (usedattr.size){ |1| 
(usedattr[i] or (i == maxgain)) 
} 


fwriteline.call(attrnames [maxgain] + ›=? + 
attr [attrnames [maxgain]] [1]) 
p = proc{ lal 
if a.empty? 
fwriteline.call("\t" + majority(tests, num) ) 
else 
ID3(a, num, f, tabnum + 1, 
newusedattr, attrnames, attr) 
end 
} 
p.call(arrpos) 
fwriteline.call(attrnames [maxgain] + ›=? + 
attr [attrnames [maxgain]] [2]) 
p.call(arrneg) 
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епа 


def applyID3(infname,outfname) 
attrnames, attr, tests, num = ParseAttributes (infname) 
usedattr = (0...attr.size).map{ lil i == num } 
f = open(outfname, ›м?) 
ID3(tests, num, f, 0, usedattr, attrnames, attr) 
f.close 

end 


Как видно, языки эти Ha требуемом нам уровне не очень 
сильно отличаются. И вообще, комментаторы соглашаются, что 
Python и Ruby практически эквивалентны; при решении, какой 
из этих двух языков использовать, лучше всего смотреть на то, 
насколько удобный и подходящий для решения вашей задачи 
существует для них инструментарий. 


$ 1.7. Проблема критерия прироста информации 


У критерия прироста информации есть одна существенная 
проблема. Дело в том, что прирост информации часто будет 
выбирать атрибуты, у которых больше всего значений. 


ПРИМЕР 1.6. Проблема критерия прироста информации 

Предположим, что в нашей таблице игр «Зенита» были записаны 
ешё и даты игр, причём у каждого матча, что вполне логично, своя 
лата. Вычислим в таком случае прирост информации: 


n 
1 
Саш(А Дата) = Н(А,Победа) — УЕ = Н(Адата-=і.Победа) = 
i=1 


= Н(А Победа), 


потому что в каждой из веток только один случай, и энтропия в каж- 
дой ветке равна нулю. Таким образом, прирост информации в этом 
случае будет максимальным из возможных. Но полученное дерево 
принятия решений будет, конечно, абсолютно бесполезным — даже 
если бы дата игры имела какое-нибудь астрологическое отношение к 
результату, всё равно уже прошедшие даты никогда не повторятся. 


Что же делать? Очевидно, нужно модифицировать крите- 
рий прироста информации так, чтобы он смог справиться с этой 
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проблемой. Надо как-то уменьшать желательность атрибута с 
ростом числа его значений. 

Здесь полезно посмотреть на обучение деревьев принятия 
решений с точки зрения теории информации. Минимизируя эн- 
тропию, мы на самом деле минимизируем длину описания те- 
стовых примеров при условии, что они действительно описыва- 
ются нашим деревом принятия решений. Действительно, энтро- 
пия Н(А Победа) — это в точности среднее количество битов, 
которое нужно, чтобы описать один исход; на каждом шаге мы 
минимизируем количество битов, которое нам ещё осталось 
потратить. Но где же биты, которые мы потратили на разделе- 
ние на текущем шаге? 

В работе [130] был предложен критерий Gain Ratio. Идеоло- 
гически он учитывает не только количество информации, тре- 
буемое для записи результата, но и количество информации, 
требуемое для разделения по текущему атрибуту. Эта поправка 
выглядит как 


ГА: 
SplitInfo(A,Q) = X Alo g2 ов: i, 


a сам критерий — KaK максимизация величины 
Саш(А,О) 


ч _СащА,О) _ 
GainRatio(A,Q) = ЗРИшю(А, О)’ 


ПРИМЕР 1.7. Gain Ratio 
У атрибута «Дата», описанного в примере 1.6 (мы предполагаем, 
что все даты разные), показатель SplitInfo pasem 
РЄ, 
SplitInfo(A,Aara) = — 2 71082 > = 2,80735... 
i= 
и Gain Ratio получается равным 
Саш(А Дата) 
t A = 
а ЭРИ т (А Дата) 
Н(А,Победа) _ 0,9852... 
SplitInfo(A Aara) ` 2,80735... 
А для атрибута, показывающего, где проходит матч, 


2 2 
ЭРШшЮ(А,Играет) = log ? 7 105> 5 = 0,86312..., 


2 0,350935... 


48 Глава 1. Деревья принятия решений 


и итоговый Саш Ratio получается 
Саш(А,Играет) _ 0,4696... 
ЭЗРИЫшю(А,Играет) ~ 0,8613... 


СаіпВКайо(А Играет) = а 0,5452... 


Ещё один аналогичный часто используемый критерий [58, 
162] — так называемый индекс Джини!. Для набора тестов А 
и свойства 5, имеющего $ значений, этот индекс вычисляется 
как 

2 
А4 
|А| 


Соответственно, для набора тестов А, атрибута О, имеющего а 
значений, и целевого свойства $, имеющего $ значений, индекс 
Джини вычисляется следующим на 


5 
Gini(A,S)=1- |». 
1=1 


Gini(A,Q,S) = Gini(A,S) — з АЎ зц (А;,5). 


Индекс Джини отчасти компенсирует уклон критерия при- 
роста информации в сторону выбора самых «развесистых» ат- 
рибутов. Однако в остальном они очень похожи; проведённое 
теоретическое исследование показало, что результаты исполь- 
зования индекса Джини и критерия прироста информации раз- 
личаются очень редко [131]. 


$ 1.8. Оверфиттинг 


Когда дерево принятия решений строится посредством ал- 
горитма ID3 или аналогичного ему, полученное дерево всегда 
удовлетворяет всем имеющимся данным. Однако на практике 


1Коррадо Джини (Corrado Gini, 1884-1965) — итальянский статистик 
и экономист. В своей статье 1912 года «Уапа ША е mutabilitá» [50] Джи- 
ни ввёл так называемый коэффициент Джини — экономическую меру 
неравенства в распределении доходов. Коэффициент Джини показывает, 
насколько большая доля общего дохода или благосостояния сосредоточе- 
на в руках немногочисленного большинства. Это — один из весьма харак- 
терных примеров того, как идеи машинного обучения приходят из самых 
неожиданных областей; позднее мы ещё столкнёмся с применениями идей 
из термодинамики и биологии. 
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в результате часто получаются слишком детализированные де- 
ревья, и число ошибок при дальнейшем использовании постро- 
енного дерева растёт. Это явление называется оверфиттингом 
(overfitting). 


ПРИМЕР 1.8. Когда возникает оверфиттинг 

Эффект оверфиттинга легко проиллюстрировать на следующем 
примере. Предположим, что игра нашего многострадального «Зени- 
та» дома в ясную погоду вообще ни от чего больше не зависит: «Зе- 
нит» просто выигрывает в 90% случаев. Но среди исходных данных 
имеется одно домашнее поражение «Зенита» в ясную погоду. Тогда 
1Р3 старательно учтёт все (не имеющие никакого отношения к сути 
дела) «причины» этого поражения и будет в дальнейшем предсказы- 
вать, что «Зенит» проиграет в аналогичных ситуациях. 

На самом же деле «Зенит», конечно, будет выигрывать всё с той 
же вероятностью 90%. Таким образом, получившееся в результате ра- 
боты совершенно корректного алгоритма обучения дерево будет на 
деле плохо справляться с задачей классификации. 


Можно, конечно, просто искусственно останавливать рост 
дерева в глубину. Но когда, на каком этапе? Обычно, чтобы из- 
бежать оверфиттинга, используют так называемое обрезание 
(pruning), то есть сначала позволяют дереву беспрепятственно 
разрастись, а затем обрезают лишние ветки. Обрезание дерева 
в некотором узле заключается в том, что поддерево с корнем 
в этом узле удаляется из дерева, а в узел помещается метка с 
тем исходом, которых в этом узле большинство. Однако, чтобы 
применить такой метод, нужно сначала понять, какие именно 
ветки следует обрезать. 

В машинном обучении часто используется стандартная про- 
цедура для самотестирования. Предположим, что у нас есть до- 
статочно большой объём тестовых примеров. Разобьём эти ис- 
ходные данные на множество, на котором дерево будет стро- 
иться (teaching set), и множество, на котором мы будем дерево 
тестировать (validation set). По первой части построим дерево 
принятия решений. Теперь у нас есть дерево и набор эталон- 
ных тестов, правильные ответы на которые нам известны. Если 
же «выбрасывать» часть драгоценных данных на тестирование 
жалко, можно разделить ланные на К частей и за К проходов 
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использовать каждую часть по одному разу для тестирования и 
k— Т раз для обучения (так сказать, «скользящее окно»). 

Теперь изложим один из возможных методов обрезания вер- 
шин. Главной мерой успеха для нас будет то, насколько хоро- 
шо дерево справляется с тестами. Соответственно, можно про- 
сто рассмотреть каждую вершину как кандидата на обрезание 
и проверить, станет ли сокращённое дерево лучше справляться 
с тестами. На каждом шаге мы будем выбирать такую верши- 
ну, обрезание которой максимально улучшает поведение дерева 
принятия решений. Эти вершины будем оставлять обрезанны- 
ми и продолжать до тех пор, пока обрезание любой вершины 
не будет приводить к более слабому результату на эталонных 
тестах. 


$ 1.9. Заключение 


Мы начали эту книгу с несложного, но достаточно показа- 
тельного аппарата машинного обучения — обучения деревьев 
принятия решений. В этой главе мы научились автоматически 
строить из данных модель, позволяющую аппроксимировать за- 
данную булевскую функцию. Этой моделью стали деревья при- 
нятия решений: деревья, в которых на каждом уровне происхо- 
дит разветвление по возможным значениям одного из атрибу- 
тов. 

Но, конечно, многое осталось за кадром. Нам по ходу гла- 
вы уже стало ясно, что разные функции имеют разную глуби- 
ну оптимального дерева принятия решений. Людям, знакомым 
со структурной теорией сложности, а в особенности со схемной 
сложностью, уже, наверное, тоже ясно, что это неплохая мера 
сложности булевской функции: простые функции можно выра- 
зить деревом небольшой глубины, а самые сложные нескольки- 
ми выборами не решишь. Такой подход действительно был раз- 
вит; фактически, появились сложностные классы, связанные с 
деревьями принятия решений, аналогичные классическим Р, МР 
и соМР (кстати, в контексте этой теории Р = МР N соМР) [6]. 

Но и с точки зрения машинного обучения деревьями при- 
нятия решений дело не ограничилось. Деревья быстро превра- 
тились в графы принятия решений (decision graphs); в них 
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несколько путей от корня могут снова сойтись при помощи узла- 
дизъюнкции (в этой главе они могли только разделяться узлами- 
конъюнкциями) [119-121]. Затем последовали и ещё более слож- 
ные конструкции; если читатель хочет выяснить, какие основан- 
ные на деревьях принятия решений конструкции сейчас рас- 
сматриваются в машинном обучении, рекомендуем заглянуть 
в [152, 153]. 

А мы будем двигаться дальше; в следующей главе нас ждёт 
та же задача и другой способ её решения. И другой результат. 


Глава 2 


Обучение концептам 


Однажды все жители Леса собрались на День Рождения к Кри- 
стоферу Робину. После торжественного чаепития, большого медо- 
вого торта и задувания свечек Винни-Пух, Пятачок, Кролик, Иа-Иа 
и все-все-все остальные остались у Кристофера Робина для друже- 
ской беседы. Вдруг умиротворённый обедом Винни проурчал: 

— Кристофер Робин, а правда, мы с тобой большие-большие 
друзья? 

— Конечно, правда, Пух! — ответил Кристофер Робин. 

— А правда, у тебя нету друга лучше меня? — спросил Пух. 

— Конечно, нету, Пух! — радостно подтвердил Кристофер Ро- 
бин. 

В гостиной повисла зловещая тишина. Кристофер Робин расте- 
рянно оглянулся по сторонам: остальные звери казалось, изо всех 
сил старались не смотреть ни друг на друга, ни на Пуха, ни на маль- 
чика. Вдруг в тишине раздалось приглушённое всхлипывание. Это 
не выдержал Пятачок: 

— Кристофер Робин, то есть мы... мы хуже Пуха, да? 
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— Ну что ты, Пятачок! Что ты, Кролик, что ты, Иа-Иа! Друзей 
лучше вас у меня тоже нет! — сказал Кристофер Робин самым 
весёлым голосом, на какой только был способен. 

— Но как же так? — спросил Кролик. — Разве может быть, что 
и Пух самый лучший, и мы самые лучшие? 

— Конечно, может, глупышка! — продолжал Кристофер Ро- 
бин. — Пух спросил, есть у меня друзья лучше, чем он. Ну конечно, 
у меня нет друзей лучше Пуха. Но и друга лучше, чем ты, Кролик, 
у меня тоже нету! Вы просто разные, вас нельзя сравнить друг с 
другом и сказать, что кто-то лучше. Вы все — мои лучшие друзья! 

Вскоре все успокоились, ведь никому не хотелось верить, что 
Кристофер Робин их не любит. Жители Леса ещё долго вели инте- 
ресную и познавательную беседу, а потом, когда за окном стемнело 
и стихло всё, кроме уютного трещания камина, гости Кристофе- 
ра Робина по одному заснули прямо в креслах. Мальчик обвёл их 
взглядом, вздохнул и с грустной улыбкой пробормотал: 

— Все вы у меня... максимальные. 


§ 2.1. Введение 


В этой короткой главе мы рассмотрим ещё один способ обу- 
чить компьютер классифицировать данные по заданному конеч- 
ному числу атрибутов — так называемое обучение концептам. 
Мы решаем ту же задачу, что и в предыдущей главе: найти 
наиболее разумное — что часто эквивалентно наиболее корот- 
кому — описание имеющихся данных. Главное же отличие от 
алгоритмов классификации методом деревьев принятия реше- 
ний заключается в представлении гипотез и, как следствие, в 
представлении результатов классификации. 

Гипотеза в обучении концептам — это набор причин, из кото- 
рых следует, что целевая функция равна единице (истине). Да, 
алгоритмы обучения концептам несимметричны — если вместо 
поиска гипотез, из которых следует истинность целевой функ- 
ции, искать гипотезы, из которых следует её ложность, получат- 
ся совсем другие результаты. Это мы ниже используем в другом 
алгоритме обучения концептам. Но прежде чем заняться алго- 
ритмами вплотную, давайте сделаем небольшой шаг в сторону 
и немного поговорим о бинарных отношениях и частичных по- 
рядках. 
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§ 2.2. Частичные порядки 


В этом параграфе мы рассмотрим несколько очень простых 
вещей, относящихся к дискретной математике. К сожалению (и, 
честно говоря, к вящему изумлению), их очень нечасто вклю- 
чают в базовые математические курсы. Но в жизни математика 
и даже программиста, тем не менее, весьма полезно понимать 
разницу между «наибольшим» и «максимальным». Поэтому по- 
пробуем вкратце изложить основные определения этого разде- 
ла дискретной математики (тем более что они нам в этой главе 
пригодятся), а заинтересовавшегося читателя отсылаем к заме- 
чательной книге [175], а также к [25, 140]. 

Начнём издалека. 


ОПРЕДЕЛЕНИЕ 2.1. Бинарное отношение на множествах X 
и Y — это подмножество декартова произведения X x Y. 


Обычно вместо (х,у) € К, где К — бинарное отношение, пи- 
шут хВу (сравните это сх < Y, и вы поймёте, откуда взялось 
такое странное обозначение). 


ПРИМЕР 2.1. Шекспир на большом экране 
В качестве Х рассмотрим множество кинорежиссёров 


X = {Франко Дзефирелли, Лоуренс Оливье, Квентин Тарантино}, 
а в качестве У — множество шекспировских трагедий 
У = { «Гамлет», «Ричард П», «Ромео и Джульетта»). 


Тогда бинарное отношение «режиссёр ставил фильм по пьесе» на этих 
множествах будет выглядеть следующим образом: 


В = { (Франко Дзефирелли, «Ромео и Джульетта»), 
(Франко Дзефирелли, «Гамлет» ), 
(Лоуренс Оливье, «Гамлет»), 


(Лоуренс Оливье, «Ричард П») } СХхҮ! 


Бинарное отношение — очень общее понятие. В качестве би- 
нарного отношения можно представить многие математические 


1По данным 2009 года; кто знает, может быть, Гамлету ещё предстоит 
вести с Горацио фирменный тарантиновский диалог... 
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объекты. Например, функция — это бинарное отношение специ- 
ального вида: отношение называют функциональным, если для 
всяких хЕХиу,2 Е Y a3 xRy Z xRz следует, что у = 2. Кстати 
говоря, равенство, точнее говоря, тождество — это тоже част- 
ный случай бинарного отношения, так называемое диагональ- 
ное отношение А на X x X: (ху) Е А тогда и только тогда, 
когда х = у. Введём несколько (только самых-самых основных) 
свойств бинарных отношений. 


ОПРЕДЕЛЕНИЕ 2.2. Бинарное отношение К на множествах X 
и Ү называется: 


тотальным слева, если Ух Е X ЗуЕ\: хКу; 
сюрђњективным (тотальным справа), если Vy E У 3x € 
Х: xRy; 

инбективным, если У х,2 Е X, Yy Е Y, если х Куи2 Ку, 
TO X = Z; 

функциональным, если Ух E X,Vy,z Е Y, если x Куи 
x Rz, тоу = 2; 

биективным, если оно тотально слева, сюръективно, 
инъективно и функционально. 


Бинарное отношение К на множестве X (К С X x X) называ- 


ется: 


рефлексивным, если Ух Е Хх Кх; 

иррефлексивным, если Ух Є X неверно, YTO x R х; 
симметричным, если Уху Е X из х К у следует у R x; 
антисимметричным, если Уху ЄХизхКуиуКх 
следует х = у; 

транзитивным, если Үх,у,2 Е X изх R y ay К 2 следует 
К 2; 

линейным, если Ух є X верно либо х R у, либо у Rx 
(либо они одновременно выполняются). 


Конечно, столь многочисленные определения требуют кон- 
кретных примеров. 


ПРИМЕР 2.2. Примеры бинарных отношений 


Введённое нами в примере 2.1 отношение «режиссёр ставил фильм 
по пьесе» не было 


ни тотальным слева (Тарантино не ставил Шекспира), 
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— ни функциональным (Дзефирелли и Оливье экранизировали 
по две из трёх пьес из множества Y), 

— ни инъективным («Гамлета» экранизировали два из трёх pe- 
жиссёров множества Х), 

— ни, разумеется, биективным. 


Из введённых нами свойств оно обладало только свойством сюръек- 
тивности: любую из пьес множества Ү экранизировал хотя бы один 
режиссёр множества Х. 

Отношение строгого порядка < на множестве вещественных чисел 
В является: 


— иррефлексивным (а вот отношение нестрогого порядка < бы- 
ло бы рефлексивным); 

— антисимметричным (< тоже было бы антисимметричным); 

— транзитивным (как и $); 

— линейным (как и $). 


Есть два особенно часто употребимых класса бинарных от- 
ношений на Х х Х (понятно, что функции употребимы не реже, 
но их редко рассматривают как бинарные отношения). Первый 
из них — рефлексивные симметричные транзитивные отноше- 
ния; они называются отношениями эквивалентности (на- 
пример, равенство чисел — типичное отношение эквивалентно- 
сти). О втором же классе поговорим подробнее. 


ОПРЕДЕЛЕНИЕ 2.3. Частичный порядок — это транзитив- 
ное антисимметричное бинарное отношение. Рефлексивный ча- 
стичный порядок называется нестрогим; напротив, иррефлек- 
сивный частичный порядок называется строгим. 


Приведём классический пример конечного частично упоря- 
доченного множества: рассмотрим множество подмножеств ко- 
нечного множества Х, на котором введён частичный порядок С 
(включение). Проще говоря, из двух множеств А и В большим 
считается то, которое полностью включает другое. Если же и 
разность А \ B, и разность В\ А непусты, то такие подмножества 
считаются несравнимыми. 

На рис. 2.1 изображено множество подмножеств множества 
из трёх элементов X = {x,y,z}. При этом подмножества упоря- 
дочены снизу вверх: на одном уровне находятся несравнимые 
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Рис. 2.1. Множество подмножеств X = {x,y,z} 


подмножества (т.е. такие элементы а и Ъ, что в нашем частич- 
ном порядке С ниа C b, ни b Са), а из меньших подмножеств 
в большие ведут стрелки. Такую диаграмму можно нарисовать 
для любого частичного порядка; она называется диаграммой 
Хассе. 

Множество, снабжённое частичным порядком, называется 
частично упорядоченным множеством. Слова эти иногда 
сокращают до ч.9. м. или просто чум, а в англоязычных текстах 
общепринят термин poset (от слов «partially ordered set»). 

На этом месте можно было бы долго развивать теорию ча- 
стично упорядоченных множеств. Стоит упомянуть слово ре- 
шётка (частный случай частично упорядоченного множества), 
как оно сразу же потянет за собой понятие алгебры, а там уже 
недалеко до универсальной алгебры, теории булевых алгебр, и 
всё это непосредственно связано с логикой вообще и теорией мо- 
делей в частности... но здесь любопытствующий читатель смо- 
жет найти много интересного в [25], а нам потребуется букваль- 
но пара определений. 


ОПРЕДЕЛЕНИЕ 2.4. Наибольшим элементом множества X 
относительно частичного порядка > называется такой х є X, 
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Рис. 2.2. Множество подмножеств X = {x,y,z} без 
наибольшего элемента 


что Vy Е Ху > хили у = х.! Аналогично, х Є X называется 
наименьшим, если Vy Е X x > у HAA X=Y. 

Максимальным элементом множества X относительно Ya- 
стичного порядка > называется такой х Е X, что если X > у для 
какого-либо y Е X, то у = х: 


(уЕХЛх> у) Зу=х. 


Аналогично, х Е Х называется минимальным, если для всякого 
y E€ из у х следует у = х. 


Следует чётко осознавать разницу между максимальными 
и наибольшими элементами: наибольший — это тот, который 
больше всех, а максимальный — тот, больше которого нету. 
Наибольший элемент может быть только один (если x H y — 
наибольшие, то по свойству у из X = Y, что верно по свойству 
х, следует х = у). А максимальных может быть много. Что- 
бы далеко не ходить, рассмотрим тот же пример — множество 
подмножеств X = {x,y,z}, упорядоченное по включению, — но 
выкинем из него наибольший элемент {x,y,z}. В получившемся 
частично упорядоченном множестве окажется сразу три макси- 
мальных элемента: {х,у}, {х,2} и {у,2) (см. рис. 2.2). 


Случай равенства приходится выделять, потому что порядок может 
оказаться строгим. 
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На этом уже можно было бы и завершить наш краткий экс- 
курс в дискретную математику и вернуться к алгоритмам ма- 
шинного обучения... но есть одно лирическое отступление, кото- 
рое очень хочется сделать на этом месте. Введённые нами опре- 
деления частичных порядков позволят определить одну очень 
красивую конструкцию дискретной математики: функцию Мё- 
бшуса. Аля дальнейшего понимания следующий параграф со- 
вершенно не важен, поэтому читатель, желающий поскорее пе- 
рейти к сути обучения концептов, может переходить к $ 2.4. 


$ 2.3. Лирическое отступление: функция Мёбиуса 


Возможно, вы встречали функцию Мёбиуса! на натураль- 
ных числах: 
1 Пр... P2, 
Шт) ={-1, т=р1...рл+1, 
0,- palm, 
где n Є №, a pi — простые делители п. Другими словами, и(п) 
равна нулю, если в разложении п на простые множители встре- 
чается квадрат какого-нибудь простого числа, равна единице, 
если квадратов нет и разных простых чисел в разложении n 
чётное число, и равна —1, если число простых чисел в разложе- 
нии нечётно. 
У этой функции много интересных свойств и применений. 
Главное свойство — формула обращения Мёбиуса (см., напри- 
мер, [175]). 


1 Август Фердинанд Мёбиус (August Ferdinand Möbius, 1790-1868) — 
немецкий математик и астроном. В молодости он учился астрономии и ма- 
тематике у Гаусса, который, мягко говоря, без большого желания брал уче- 
ников, а затем перешёл под руководство Пфаффа (того самого, в чью честь 
названы пфаффианы). У Мёбиуса были важные работы по астрономии (его 
диссертация называлась «О покрытии неподвижных звёзд»), а в математи- 
ке он занимался теорией чисел (отсюда и функции Мёбиуса) и проективной 
геометрией (отсюда преобразования Мёбиуса; именно Мёбиус, кстати, ввёл 
однородные координаты). Мёбиус известен каждому как автор «ленты Мё- 
биуса» — неориентируемой двумерной поверхности с одним краем и одной 
стороной; впрочем, как это часто бывает, приоритет этого открытия при- 
надлежит не Мёбиусу, в честь которого оно названо, а другому немецкому 
математику, Иоганну Листингу. 
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ПРЕДЛОЖЕНИЕ 2.1. Для арифметических (то есть за- 
данных на множестве натуральных чисел) функций f и 9 


m=) (4 ө f=) (5) а. 


ат. ат. 


Аналогичный факт верен и не обязательно в целых числах: 


9(х) = 3 f (—) е х) = у и(п)9 (2) 
nex 


т\<х 


Иначе говоря, функция Мёбиуса позволяет обратить сумму 
по делителям. В частности, если подставить вместо f саму функ- 
цию и, получится другое важное свойство функции Мёбиуса: 


у ща) = 1, wE 


ап 0, п>1. 


За следующим примером неподготовленному читателю MO- 
жет оказаться трудно проследить во всех деталях. Однако если 
принять на веру некоторые базовые вещи, понять суть всё же 
можно. 


ПРИМЕР 2.3. Газ из примонов и гипотеза Римана 

Функция Мёбиуса находит совершенно неожиданное применение... 
здесь хочется написать «в физике», но это было бы некорректно: всё- 
таки модель сугубо математическая, и физические аналогии появля- 
ются уже после математической постановки. Но аналогии эти чрезвы- 
чайно интересные. 

Лавайте рассмотрим модель так называемого свободного рима- 
нова газа, то есть газа, состоящего из частиц, так называемых при- 
монов (primons, от слова, разумеется, «prime» — «простой»), которые 
не взаимодействуют между собой и имеют уровни энергии logp для 
каждого простого числа р. 

Эту модель можно мотивировать, рассмотрев одно из самых важ- 
ных и базовых понятий современной физики — понятие спектра. Мы 
не будем углубляться в основы физики, хотя, наверное, стоило бы на- 
писать отдельную книгу «Физика для информатика-теоретика», так 
много физических концепций и трюков применяется в теоретической 
информатике и, в частности, в машинном обучении. Вспомним толь- 
ко сугубо математический аспект: спектр кольца брес(К) — это мно- 
жество его простых идеалов. Связь с сугубо физическим понятием 
спектра (множеством частот, с которыми может колебаться система) 
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здесь хоть и неочевидна, но всё же есть: частный случай простых иде- 
алов, максималъные идеалы — это возможные ядра гомоморфизмов 
из кольца в какое-либо поле (для Z все простые идеалы являются 
максимальными); коммутативное кольцо — это множество функций 
на том или ином пространстве, и эти самые пространства получа- 
ются как множества гомоморфизмов кольца в то или иное поле; а 
спектр некоторой алгебры (С*-алгебры, если быть точным) функций 
А в математической физике — это как раз множество гомоморфизмов 
Л: А — С, то есть, грубо говоря, множество возможных наборов значе- 
ний этих самых функций. Множество наборов значений пространства 
функций — это уже спектр в его самом физическом смысле: множе- 
ство частот системы — это множество значений функционала энергии 
этой системы (частота и энергия в квантовой механике отличаются 
только на постоянную Планка), так называемого гамильтониана. 

У свободного риманова газа каждая частица (примон) имеет уров- 
ни энергии log p, соответствующие простым числам: 


(log 2,108 3,105 5,1057,...). 


Частицы не взаимодействуют, то есть общая энергия системы (гамиль- 
тониан) является суммой энергий частиц. Значит, общий гамильтони- 
ан системы определяется целым числом: 


In} = |р1,р2,рз,...) = Ра 334 


ведь суммарная энергия равна сумме логарифмов, а каждое натураль- 
ное число однозначно соответствует некоторому произведению про- 
стых чисел. 

Так вот, это всё разумно, если частицы являются бозонами (ча- 
стицами с целым спином: фотон, мезоны). А если мы хотим рассмот- 
реть газ из фермионов (частиц с половинным спином: протоны, элек- 
троны), на нашем пути возникает принцип Паули, он же принцип 
запрета: два тождественных фермиона не могут находиться в одном 
квантовом состоянии. О чём это говорит с математической точки зре- 
ния? Правильно, о том, что в разложении целого числа запрешаются 
квадраты простых. Оператор, который разделяет бозоны и фермионы 
в свободном римановом газе — это как раз функция Мёбиуса (подроб- 
нее об этом см. [146]). 

Кстати, эта модель риманова газа вообще очень интересна мате- 
матически. Из статистической физики известно, что вероятность того, 
что энергия системы будет равна Е, пропорциональна е ВЕ, где В — 
некоторая константа, зависящая от температуры (вот что такое тем- 
пература на самом деле!). Чтобы получить собственно вероятности, 
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эти числа нужно нормализовать — разделить каждое из них на сум- 
му всех чисел, чтобы сумма полученных отношений равнялась едини- 
це. Нормировочная константа, то есть сумма всех чисел вида е РЁ, в 
физике называется статистической суммой (partition function) и 
играет важную роль: через неё выражаются разные термодинамиче- 
ские параметры. 

В модели риманова газа статистическая сумма будет равна 


У ев" = У ев" у nè, 

пЕМ пЕМ пЕМ 
то есть в точности дзета-функции Римана! Отсюда возникают идеи 
сугубо физического доказательства гипотезы Римана... но в это мы 


углубляться не будем, а если читатель заинтересовался — обращайтесь 
в [22]. 


Однако главная суть функции Мёбиуса — не в её арифме- 
тической постановке, а в более общей ситуации, когла функ- 
цию Мёбиуса вводят на произвольном частично упорядоченном 
множестве. Начнём с определения объекта, на котором все эти 
функции булут действовать. 


ОПРЕДЕЛЕНИЕ 2.5. Интервал [a,b] в частичном упорядо- 
ченном множестве X для некоторых а < БЕ X — это множество 
вида 

[a,b] = {х:а< х= Ъ СХ. 
Частично упорядоченное множество называется локально ко- 
нечным, если в нём конечен всякий интервал. 


Локально конечное множество совершенно не обязано быть 
конечным. 


ПРИМЕР 2.4. Локально конечное бесконечное множество 

Натуральные числа № с естественным порядком локально конеч- 
ны, потому что каждый интервал [п, т] содержит конечное число Ha- 
туральных чисел. Но при этом само множество № счётно. 

Легко привести и пример локально конечного несчётного множе- 
ства. Рассмотрим, например, R с отношением делимости напело: а < b 
тогда и только тогда, когда b = ап для некоторого п є №. Тогда в 
интервале от а до Ъ может поместиться не более п чисел, но само 
множество при этом несчётно. 
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ОПРЕДЕЛЕНИЕ 2.6. Для любого локально конечного частич- 
но упорядоченного множества X и любого коммутативного KOAD- 
ца с единицей В! определим алгебру инцидентности. Eë эле- 
менты — функции f, которые действуют на множестве интер- 
валов: f([a,b]) € R (в дальнейшем будем использовать сокра- 
щённое обозначение f(a,b) = f([a,b])). Сложение и умножение 
на скаляр в этой алгебре вводятся покомпонентно, а умножение 
функций — как свёртка 


(#х9)( => Ж f(a,x)g(x,b). 
a<x<b 


Алгебра инцидентности — один из самых базовых, HO вместе 
с тем и самых интересных объектов дискретной математики. 
Например, попробуйте догадаться — какая будет единица в этой 
алгебре? 


ПРЕДЛОЖЕНИЕ 2.2. Дельта-функция, определённая равен- 


ством 
1, a=b, 


0, axb, 
является единицей алгебры инцидентности. 


6(а,Ъ) = 


ДОКАЗАТЕЛЬСТВО. Нужно проверить, что при умножении 
на дельта-функцию хоть слева, хоть справа элементы алгебры 
инцидентности не меняются. Давайте умножим ё на некоторую 


функцию f: 


(#* 5) (а5) = У (ах) (х) = Ка»), 
a<x<b 

(5* (а) = У 8lax)f(x,b) = f(a,b), 
a<x<b 


так как Ф равна нулю на всех интервалах, по которым ведётся 
суммирование, кроме одного. 


Ещё одна интересная функция, присутствующая в любой ал- 
гебре инцидентности — это дзета-функция (a,b) = 1 (т.е. KOH- 
станта). Умножение на Č — это дискретный аналог интегриро- 
вания; в результате получается сумма по всем промежуточным 


Если вы не знаете, что такое кольцо, можете считать, что К — это 
просто вещественные числа. Или целые. Или комплексные. 
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интервалам: 
(fxč)(a = ж А f(a,x)č(x,b) =Y f(a,x), 
а<х<Ы а<х<ъ 
(сж #)(а SD С(а,х)#(х,6) = f(x,b), 
a<x<b a<x<b 


Так вот, оказывается, что © можно обратить. Обратная к 
функции Č — это и есть функция Мёбиуса и. 


ПРИМЕР 2.5. Функция Мёбиуса на натуральных числах 

Классическая функция Мёбиуса на числах получается, если рас- 
смотреть частично упорядоченное множество натуральных чисел, упо- 
рядоченных по делимости (а < b, если а делит b). Вспомним опреде- 
ление функции Мёбиуса, которое мы ввели в начале параграфа: 


1, прут... Pan, 
ип) = -1, п=ра.. Ра, 
0, pln, 


где п — натуральное число, а р; — его простые делители. Нам нужно 
ввести определение функции Мёбиуса на интервалах; не мудрствуя 
лукаво, положим и(а,Ъ) = (b/a). Заметим, что в этом случае ин- 
тервалом [а,б] для чисел а и b, где b делится на а, будет множество 
чисел, которые делятся на а и делят Ъ. 

А теперь попробуем умножить и на С в алгебре инцидентности: 


(иж) (а,Ъ) =) шах) С(х,Ъ) = 


ах 
Ў. щ(а,х) = Ў в (=) =) щу) 
yl? 


ахы а|х|ъ 


(в последнем равенстве мы просто сделали замену переменных). Te- 
перь по следствию из предложения 2.1 очевидно, что 


(и* б)(а,Ы) =1 
тогда и только тогда, когда а = b, ав противном случае (их*ё)(а,&) = 0. 
Иначе говоря, 
иж = 6, 
а 6 — единица нашей алгебры инцидентности. Совершенно точно так 
же проверяется, что Сх р = ё, а эти два факта вместе как раз и озна- 
чают, что u = С!. 
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Очень интересный пример получится, если взять натураль- 
ные числа с естественным порядком. Тогда функция Мёбиуса 
превратится в разностный оператор А: 


1, у—х=0, 
щЩху) = 4—1, у-х= 1, 
0 у—х>1. 


Мы оставляем читателю в качестве несложного упражнения про- 
верить, что так определённая функция и действительно обратна 
функции Č. Интуитивно понятно: оператор конечной разности — 
это оператор дискретного дифференцирования, и поэтому он бу- 
дет обратным к дискретному интегрированию (. 

А если в том же частично упорядоченном множестве М при- 
равнять значения функций f(a,b) = {а + с, + с), то функ- 
ции будут соответствовать последовательностям элементов из К. 
При таком подходе из алгебры инцидентности получится кольцо 
формальных степенных рядов с коэффициентами из В (нужно 
только ограничиться рассмотрением начинающихся в нуле ин- 
тервалов; в дальнейшем f(a) = #(0,а)). Ведь свёртка двух функ- 
ций в точности превратится в произведение рядов: 


а 


(f а)(а) = (f * 9) (0,4) = У +(0)о(%,а) = У #)0(а—1). 
1=0 


1—0 
При таком подходе 5 — это формальный ряд (1,0,0,...), т.е. 
единица (по-прежнему ô(a,b) = 1 тогда и только тогда, когда 
a=b). А С— это ряд (1,1,1,...), и если расписать формальный 


степенной ряд, получится 


=1+х+х2 4х3 + 


Но мы же умеем обращать такой ряд: 1 +x + х2 +... — это гео- 
метрическая прогрессия со знаменателем X, то есть (в лучших 
традициях Эйлера закроем глаза на вопросы сходимости) 


1 
1+x+x? +... = : 
1-х 


Тогда обратный к С ряд и — это ряд вида 


и = (1,—1,0,0,...), 
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в точности так, как получалось два абзаца назад. Вот такая за- 
нимательная функция Мёбиуса. 

Можно рассмотреть и другой, не менее важный пример — 
булеву алгебру подмножеств некоторого множества Х. В этом 
случае (доказывать этот факт мы не будем; см., например, [175]) 
функция Мёбиуса будет равна 


ШТ, $) = (1) S", 


Это называется принципом включения-исключения: для BCA- 
кой функции f, определённой на подмножествах S, 


95) =». ЕТ). ж. [= У СР 


ТС 5] TCS 


Пример применения этого принципа можно найти, напри- 
мер, в элементарной теории вероятностей. Формула вероятности 
пересечения двух событий: 


р(ХОҮ) =Р(Х) + р(\У) -р(ХПУ), 


является простейшим частным случаем формулы включения- 
исключения. Её легко обобщить на произвольное конечное чис- 
ло событий (попробуйте доказать следующее предложение по 
индукции), и получится в точности принцип включения-исклю- 
чения для частично упорядоченного по включению множества 
событий. 


ПРЕДЛОЖЕНИЕ 2.3. Пусть X1,X2,...,Xı — события. Тогда 


n 


n 
p|UX] =} Px) - > р(х) + 
ыы i=l 1<1<)<т. 

F Ууз р(Хүп Ху п Ху) =... + (11) p(X Хп... т ху). 


1<1<)<К<т. 


На этом, пожалуй, завершим лирические отступления; же- 
лающие могут найти массу не менее интересных теорем и при- 
ложений функции Мёбиуса в [175] и других источниках. А мы 
перейдём собственно к обучению концептам. 
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ТАБЛИЦА 2.1. Как играет «Зенит» 


Соперник | Играет Лидеры Дождь | Победа 
Выше Дома На месте Да Нет 
Выше Дома На месте Нет Да 
Выше Дома Пропускают | Нет Да 
Ниже Дома Пропускают | Нет Да 
Ниже В гостях | Пропускают ! Нет Нет 
Ниже Дома Пропускают | Да Да 
Выше В гостях | На месте Да Нет 


$ 2.4. Алгоритм Find-S 


Вернёмся к примеру 1.1. Предположим, что нам нужно клас- 
сифицировать удачные и неудачные игры «Зенита» по заданной 
таблице результатов (см. табл. 2.1). 

Для игр «Зенита» множество атрибутов выглядит так: 


(Соперник, Играет, Лидеры, Дождь). 


Приведём теперь несколько примеров гипотез, описываю- 
щих ситуации, в которых «Зенит» побеждает. В записи гипотез 
вопросительные знаки означают, что данный атрибут не спе- 
цифицирован, то есть на месте вопросительного знака может 
стоять любое значение атрибута; а пустое множество, напротив, 
означает, что здесь не может быть никакого значения, гипотеза 
всё равно будет отвергнута: 


(Выше, Дома, ?, ?), 


(7, В гостях, На месте, 7), 


(2,7,7, ?) 
ыл. ЖЕ ДИЕ. > y 
(0, 0, 0, 0). 
Отметим, что если хоть один элемент гипотезы равен 0, ВСЯ TH- 
потеза целиком эквивалентна пустой гипотезе (0,...,0) (то есть 


«Зениту» уже ничто не поможет). 

Следующий этап — каким-либо образом ранжировать гипо- 
тезы. Оказывается, на гипотезах есть естественный порядок, от 
общего к частному. 
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ТАБЛИЦА 2.2. Как выигрывает «Зенит» 


Соперник | Играет | Лидеры Дождь | Победа 
Выше Дома | На месте Нет Ла 
Выше Дома | Пропускают | Нет Ла 
Ниже Дома | Пропускают | Нет Ла 
Ниже Дома Пропускают | Да Да 


ОПРЕДЕЛЕНИЕ 2.7. Гипотеза Ил называется более общей, 
чем гипотеза hz (обозначаем һу > h2), если для всякого TECTO- 
вого примера d из hz(d) = 1 следует (4) = 1. 


Очевидно, что гипотеза ((,...,0) является самой частной из 
всех гипотез, а гипотеза (?,...,?) — самой общей. Но порядок, 
несмотря на то, что в нём есть максимальный и минимальный 
элементы, всё равно частичный, а не общий. Например, гипо- 
тезы hı = (Выше, Дома, ?,?) a h2 = (?, В гостях, На месте, ?) 
несравнимы: например, для тестового примера 


(Выше, Дома, Пропускают, Да) 
hı = 1, a h2 = 0, в то время как для тестового примера 
(Ниже, В гостях, На месте, Да), 


напротив, Нл = 0a И) = 1. 

Идея алгоритма Find-S очень проста: нужно начать с самой 
частной гипотезы, а затем обобщать её так, чтобы она включала 
в себя все тестовые примеры. На каждом шаге, если текущая ги- 
потеза h неправильно классифицирует пример (h(d) = 0), нуж- 
но искать минимальную h’ из тех, для которых Н’ > Пий’ = 0. 
Иными словами, нужно просто заменять неподходящие значе- 
ния на вопросительные знаки. В результате получится макси- 
мально частная гипотеза, отвечающая всем тестовым данным. 

Отметим, что негативные тестовые примеры вообще игнори- 
руются, т.е. реально для алгоритма Find-S интерес представля- 
ет только часть табл. 2.1, представленная в табл. 2.2. 

Схема алгоритма представлена на рис. 2.3. 

Давайте подробно разберём работу алгоритма в нашем слу- 
чае; для краткости рассмотрим в следующем примере только 
три первых тестовых примера. 


70 Глава 2. Обучение концептам 


Еіпаѕ(0): 
1. h:= (0,...,0). 
2. Ana всех d € DH 
а) Если Һа) = 0: 
(i) h’ :=h. 
(ii) Для каждого атрибута a, если hla] = 
dla], то Һа] := ?. 
(iii) h:= h’. 
3. Выдать h. 


Рис. 2.3. Алгоритм Find-S 


ПРИМЕР 2.6. Работа алгоритма Find-S 
Возьмём игры «Зенита» и первые три тестовых примера, пред- 
ставленных в табл. 2.2 (они там только положительные). 
Мы начинаем с гипотезы 


h= (0, 0, 0, 0). 


Поступает первый положительный тестовый пример из таблицы 2.2: 


(Выше, Дома, На месте, Нет). 
h выдаёт ноль, значит, гипотезу надо обобщать. Максимально частная 
гипотеза просто совпадёт с этим тестовым примером: 


h = (Выше, Дома, На месте, Нет). 


Поступает второй пример: 
(Выше, Дома, Пропускают, Нет). 


И снова h выдаёт 0. Максимально частная гипотеза, объединяющая h 
и этот пример, обобщит значение атрибута Лидеры: 


h = (Выше, Дома, ?, Нет). 
И, наконец, третий пример 
(Ниже, Дома, Пропускают, Нет) 


снова удостоверит нас, что текущая гипотеза несостоятельна. Макси- 
мально частная гипотеза, объединяющая h и этот пример, обобщит 
значение атрибута Соперник. В итоге мы получаем гипотезу, объяс- 
няющую все тестовые примеры: 


h= (?, Дома, ?, Нет). 


$ 2.4. Алгоритм Find-S 71 


Find-S — очень простой и быстрый алгоритм. Ero легко pea- 
лизовать (сейчас мы к этому перейдём), и время его работы ли- 
нейно зависит от числа тестовых примеров: к каждому из них 
мы обращаемся один раз. Главный его недостаток в том, что 
Find-S совсем не выразительный — у него очень бедное множе- 
ство гипотез. Чтобы классифицировать можно было при помо- 
щи Find-S, нужно, чтобы целевая функция выражалась фак- 
тически одной веткой дерева принятия решений, дизъюнкции 
не разрешаются. Но зато, если всё же выражается, то получен- 
ный результат будет правильно классифицировать и негативные 
примеры тоже (т.к. результат максимально частный). 


$ 2.5. Реализация алгоритма Find-S 


Мы рассмотрим пример реализации алгоритма Е1п4-5 на 
языке С#. Начнём с двух достаточно тривиальных вспомогатель- 
ных классов. Первый из них описывает тестовый пример, предо- 
ставляя интерфейс для создания и дальнейшего использования 
примеров. 


Листинг 2.1. Find-S на С#: класс TestSample 


public class Тезфбашр1е { 
private bool[] _attributes; 
private bool _value; 


public TestSample(bool[] attributes, bool val) { 
_attributes = attributes; 
„value = val; 

} 

public bool GetValue() { 
return _value; 

} 

public bool GetAttribute(uint num) { 
if ( num < _attributes.Length ) return _attributes [num] ; 
throw new Index0ut0OfRangeException(); 

} 

public uint GetNumber0fAttributes() { 
return (uint)_attributes .Length; 


} 
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Второй класс реализует гипотезу; он позволяет задавать зна- 
чения атрибутов, выбирая их из перечисляемого типа, в котором 
заданы четыре значения: (і, 0, Ти ?. 


Листинг 2.2. Find-S на С#: класс Hypothesis 


public class Hypothesis { 

public enum AttrValue { 
NONE, 
ONE, 
ZERO, 
ANY 

}; 

private AttrValue[] _attributes; 


public Hypothesis (uint num) { 
_attributes = new AttrValue[num]; 
for (uint i = 0; i < num; i++) { 
_attributes[i] = AttrValue.NONE; 
} 
} 


public void SetAttrValue(uint пит, AttrValue val) { 
if ( num < _attributes.Length ) { 
_attributes [num] = val; 


} 
} 


public AttrValue GetAttrValue(uint num) { 
if ( num < _attributes.Length ) { 
return _attributes [пиш]; 
} 
throw new Index0ut0OfRangeException(); 
} 


public uint GetNumberOfAttributes() { 
return (uint)_attributes .Length; 


} 


Третий листинг содержит код основного класса. Именно здесь 
происходит собственно работа алгоритма Find-S: описанный в 
листинге 2.3 класс FindSWrapper по заданному набору тестовых 
примеров вычисляет гипотезу. 
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Листинг 2.3. Find-S на С#: класс FindSWrapper 


public class FindSWrapper { 
static public Hypothesis FindS (ArrayList testSamples) { 
// Отфильтровываем только позитивные примеры 
ArrayList positiveTests = new ArrayList(); 
foreach ( TestSample test in testSamples ) { 
if ( test.GetValue() ) { 
positiveTests.Add( test ); 


} 

} 

if ( positiveTests.Count > 0 ) { 
IEnumerator it = positiveTests .GetEnumerator(); 
it.MoveNext(); 
TestSample firstSample = (TestSample)it.Current; 
uint num0fAttributes = 

firstSample.GetNumber0fAttributes О; 

Hypothesis hyp = new Hypothesis( num0fAttributes ); 


// Инициализируем гипотезу первым тестовым примером 
for ( uint і = 0; і < num0fAttributes; i++) { 
if ( firstSample.GetAttribute(i) ) { 
hyp.SetAttrValue(i, Hypothesis .AttrValue.0NE) ; 
} else { 
hyp.SetAttrValue(i, Hypothesis .AttrValue .ZERO) ; 
} 
} 


// Подправляем гипотезу дальнейшими примерами 
foreach ( Тезфбатр1е test in positiveTests ) { 
for ( uint i = 0; і < numûfAttributes; i++ ) { 
Hypothesis .AttrValue hypVal = 
hyp.GetAttrValue(i); 
if ( hypVal != Hypothesis.AttrValue.ANY ) { 
bool bHypVal = 
( hypVal == Hypothesis.AttrValue.ONE ); 
if ( bHypVal != test.GetAttribute(i) ) { 
hyp.SetAttrValue( 
i, Hypothesis.AttrValue.ANY ); 


} 
return hyp; 


} 


return new Hypothesis (0); 
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И, наконец, по традиции приведём реализацию основного 
класса программы; на этот раз мы реализовали консольный ин- 
терактивный ввод тестовых примеров с клавиатуры (примеры 
чтения данных из файла уже приводились в большом количе- 
стве, хоть и для других языков программирования). 


Листинг 2.4. Find-S на С#: класс ConsoleTester 


class Сопѕо1еТеѕ+ег 
{ 
[STAThread] 
static void Main(string[] args) { 
ArrayList tests = new ArrayList(); 
uint numOfParameters; 
uint numOfTests; 
string tmp; 
Console.Write("Enter the number of 
parameters in goal function: "); 
tmp = Console.ReadLine(); 
num0fParameters = uint .Parse (tmp); 
Console.Write("Enter the number of tests: "); 
tmp = Console.ReadLine(); 
numOfTests = uint .Parse (tmp); 
Console.Write("Test input format: "); 
for ( uint i = 0; і < num0fParameters; i++) { 
Console.Write("p"); 
} 
Console.WriteLine(" v"); 
Console.WriteLine("p - parameter value (0 or 1)."); 
Console.WriteLine("v - target function 
value (0 or 1)."); 
for ( uint i = 0; i < num0fTests; i++) { 
bool val; 
bool[] attributes = new bool[num0fParameters] ; 
Console .Write("Enter test parameters: "); 
tmp = Console.ReadLine(); 
for (int j = 0; 
j < num0fParameters && j < tmp.Length; 
j++) { 
attributes[j] = tmp[j] == ?1?; 
} 
Console.Write("Enter test goal function value: "); 
tmp = Console.ReadLine(); 
val = tmp[0] == ?1?; 
tests.Add( new TestSample (attributes, val) ); 
} 


// вызываем реализацию FindS 
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Hypothesis globalHypothesis = 
FindSWrapper .FindS (tests) ; 


Console.WriteLine("Global hypothesis: "); 
for (uint i = 0; 
і < globalHypothesis .GetNumber0fAttributes О); 
i++) { 
switch(globalHypothesis.GetAttrValue(i)) { 
case Hypothesis.AttrValue. ANY: 
Console.Write("?"); 
break; 
case Hypothesis.AttrValue.0NE: 
Console.Write("1"); 
break; 
case Hypothesis .AttrValue.ZERO: 
Console.Write("0"); 
break; 
case Hypothesis .AttrValue.NONE: 
Console.Write("#"); 
break; 
default: 
break; 
} 
} 


Console.ReadLine(); 


Конечно, мы привели далеко не самый экономичный C TOY- 
ки зрения количества строк кода пример реализации алгоритма 
Find-S. Читатель может попробовать переписать эту програм- 
му на Perl или Ruby и убедиться, что всё то же самое можно 
сделать и компактнее (правда, в программировании, особенно 
промышленном, краткость — очень дальняя родственница та- 
ланта). 


$ 2.6. Алгоритм исключения кандидатов 


В предыдущем параграфе мы узнали, что алгоритм Find-S 
позволяет найти наиболее частную гипотезу, совместную с по- 
ложительными примерами. Очевидным образом напрашивается 
двойственная задача: найти наиболее общую гипотезу, совмест- 
ную с негативными примерами. 
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ТАВЛИЦА 2.3. «Зенит» для алгоритма исключе- 
ния кандидатов 


Соперник | Играет Лидеры Дождь | Победа 
Выше Дома На месте Нет Да 
Ниже В гостях | Пропускают ! Нет Нет 
Ниже Дома Пропускают | Да Нет 
Выше Дома Пропускают | Нет Да 


Кроме того, Ғіпа-9 позволяет найти только одну из гипотез, 
совместных с имеющимися данными, а их на самом деле может 
быть очень много. Соответственно, нужно найти разумный спо- 
соб описания множества всех гипотез, совместных с тестовыми 
примерами. 

Оказывается, что решение первой из этих задач является 
важным шагом на пути к решению второй. Если мы для одних и 
тех же данных найдём одновременно и наиболее общую гипоте- 
зу, совместную с негативными примерами, и наиболее частную 
гипотезу, совместную с позитивными примерами, то, казалось 
бы, они должны полностью описывать множество всех совмест- 
ных с данными гипотез вообще. 

Сложность заключается в том, что порядок, который мы 
ввели в определении 2.7, частичный. А это значит, что у мно- 
жества может быть несколько максимумов и несколько мини- 
мумов; но в остальном всё верно. Итак, нам хочется найти два 
множества: множество минимальных относительно > гипотез 
(наиболее частных), совместных с данными, и множество мак- 
симальных (наиболее общих). Таким образом мы найдём «гра- 
ницы» всего множества допустимых гипотез: любая другая ги- 
потеза, совместная с тестовыми данными, будет меньше либо 
равна одной из гипотез верхней границы и больше либо равна 
одной из гипотез нижней границы. 

Алгоритм исключения кандидатов (candidate elimination) yc- 
троен именно так. Он поддерживает два множества: С — мно- 
жество максимальных (общих) гипотез, и $ — множество ми- 
нимальных (частных) гипотез. Когда на вход поступает новый 
пример 4, есть две возможности в зависимости от значения це- 
левой функции іда. 
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ta = 1. В этом случае, если оказывается, что какая-либо гипоте- 
за из С неверно классифицирует 4, её нужно удалить. А 
если неверно классифицируют гипотезы из $, их нуж- 
но соответственно обобщить. Но обобщить так, чтобы 
для каждой из них оставалась минимальной хоть какая- 
то из гипотез из С. Для этого иногла приходится «раз- 
множать» гипотезу; собственно, так и возникают множе- 
ства с несколькими максимумами из начальной позиции 
И 

ta = 0. В этом случае, если оказывается, что гипотеза из 5 невер- 
но классифицирует d, её нужно удалить. А если невер- 
но классифицируют гипотезы из С, их нужно соответ- 
ственно специализировать (добавить все минимальные 
специализации, совместные с 4 и такие, чтобы была со- 
ответствующая гипотеза в Н). При этом, опять же, одна 
гипотеза может превратиться в несколько. 

Алгоритм формально представлен на рис. 2.4. Стоит ещё 
раз подчеркнуть, что результатом операций тах и min может 
оказаться целое множество гипотез, а не одна. 


ПРИМЕР 2.7. Работа алгоритма исключения кандидатов 

Возьмём игры «Зенита» и несколько тестовых примеров, как по- 
ложительных, так и отрицательных (см. табл. 2.3). Мы начинаем с 
тривиальных гипотез 


Н = {(0, 0, 0, 0} С:={{?, ?, ?, ?)}. 
Первый пример (здесь вышеупомянутые іа — это значения целе- 
вой функции, то есть значения, записанные в последнем столбце): 
(Выше, Дома, На месте, Нет, Да). 

Н[0] выдаёт 0, значит, надо обобщать. Максимально частная гипотеза 
просто совпадёт с этим тестовым примером, и гипотезы примут вид 
Н = {(Выше, Дома, На месте, Нет)}, С := {(?, ?, ?, ?)}. 

Второй пример — отрицательный: 
(Ниже, В гостях, Пропускают, Нет, Нет). 


С̧[0] выдаёт 1 на этом примере — значит, надо специализировать. И 
сразу же мы сталкиваемся с эффектом «размножения»: максималь- 
но общие гипотезы, которые обобщают H[0] и выдают 0, появляются 
сразу в количестве трёх штук: 


(Выше, ?, ?, ?), (?, Дома, ?, ?), (?, ?, На месте, ?), 
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CandidateElimination(D) 
1. Н:={(@,...,®)}. 
Е 
3. Аля всех d € D: 
а) Если фа = 1: 
(i) Для каждой h € С, если h(d) =0, 
G := G \ {h}. 
(ii) Для каждой h є 5, если h(d) = 0, 
S := S \ {h} U Gen (h), rae Gen(h) = 
= min {h' |h > h, h'(d)=1,3hg €G: па 
6) Если ta = 0: 
(1) Для каждой h € 5, если Һа) = 1, 
S := S \ {h}. 
(ii) Для каждой h € G, если h(d)=1, 
G := G \ {h} U Spe(h), rae Spe(h) = 
= max{h’ | h > h’, h'(d) = 0, Ihs E S: h’ > hs}. 
4. Выдать G, H. 


Рис. 2.4. Алгоритм исключения кандидатов 


и текущее положение дел принимает вид 


H = {(Выше, Дома, На месте, Нет)}, 
G = {(Выше, ?, ?, ?), (?, Дома, ?, ?), (?, ?, На месте, ?)}. 
Третий пример 


(Ниже, Дома, Пропускают, Да, Нет). 


продолжает дело специализации общих гипотез; хотя С [0] и С[2] сним 
справляются, С1] выдаёт 1. Специализация получается следующая: 


Spe(G[1]) = {(Выше, Дома, ?, ?), (?, Дома, На месте, ?), (?, Дома, ?, Нет)}. 


После поглощения первой из этих гипотез уже существующей в С 


более общей множества принимают вид 


Н = {(Выше, Дома, На месте, Нет)}, 


G = {(Выше, ?, ?, ?), (?, ?, На месте, ?), (?, Дома, ?, Нет)}. 
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Четвёртый и последний пример 
(Выше, Дома, Пропускают, Нет, Да). 


даст нам возможность удалить одну из гипотез. С[1] выдаёт 0, поэто- 
му её удаляем. А НО] надо обобщить, в результате чего получается 
(Выше, Дома, ?, Нет). 

В итоге мы получили максимально частную гипотезу, объясняю- 
щую все позитивные тестовые примеры: 


К = (?, Дома, ?, Нет), 


а также набор максимально общих гипотез, совместных со всеми нега- 
тивными свидетельствами: 


С = {(Выше, ?, ?, ?), (?, Дома, ?, Нет)}. 


$ 2.7. Заключение 


В этой главе мы рассказали о не слишком часто применяю- 
щемся, но полезном и показательном аппарате обучения концеп- 
там. Алгоритмы, разработанные в этой главе, ничуть не слож- 
нее, чем алгоритм ID3, которым мы в 8 1.5 обучали деревья 
принятия решений, и решают очень схожую задачу. Мы обсу- 
дили два алгоритма; первый из них — совсем простой Е1па-5, 
который быстро обрабатывает множество тестовых примеров в 
том случае, когла каждый тестовый пример имеет один и тот 
же ответ. 

Второй алгоритм, исключения кандидатов, как и Find-S, pa- 
ботает хорошо и быстро, а результат его является в соответству- 
ющих предположениях исчерпывающе полным — описывает все 
без исключения совместные с данными гипотезы. Есть только 
одно «но»: предположения требуются очень уж жёсткие. Ал- 
горитм исключения кандидатов работает только в том случае, 
если целевая функция содержится во множестве возможных ги- 
потез. Конечно, если истина описывается нехитрой конъюнкци- 
ей нескольких значений атрибутов, она непременно будет где-то 
между полученными в результате работы алгоритма пределами. 
Но если она вообще не может описываться подобного рода ги- 
потезами, то алгоритм может сойтись к пустому множеству — а 
может и не сойтись, если данных недостаточно. 
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Это фактически единственный недостаток алгоритма исклю- 
чения кандидатов. Но он очень серьёзный, потому что множе- 
ство гипотез в обучении концептам действительно весьма бед- 
ное. Например, нам пришлось каждый раз довольствоваться 
некоторым подмножеством данных табл. 2.1, потому что вся 
таблица просто не может описываться одной конъюнкцией нес- 
кольких атрибутов. Ей нужна большая выразительность, KOTO- 
рую обеспечивают, например, деревья принятия решений. Но ес- 
ли вы уверены, что для вашей задачи такого множества гипотез 
достаточно, смело применяйте алгоритм исключения кандида- 
TOB. 

B следующей главе мы перейдём от задачи аппроксимации 
булевской функции к задаче аппроксимации функции веществен- 
нозначной. И помогут нам в этом искусственные нейронные се- 
ти. 


Глава 3 


Нейронные сети 


К 80-м годам двадцатого столетия... Минский и 
Гуд разработали методику автоматического зарож- 
дения и самовоспроизведения нервных цепей в соот- 
ветствии с любой произвольно выбранной програм- 
мой. Оказалось, что искусственный мозг можно 
«выращивать» посредством процесса, поразительно 
сходного с развитием человеческого мозга. Точные 
детали этого процесса в каждом отдельном случае 
так и оставались неизвестными; впрочем, будь они 
даже известны, человеческий разум не смог бы по- 
стичь всю их сложность. 


Космическая Одиссея 2001 
Артур Кларк. Пер. Норы Галь. 


Однажды, солнечным зимним днём, Винни-Пух и Пятачок пили 
чай с мёдом в то самое время, когда завтрак давно закончился, а 
обед ещё и не думал начинаться. Вдруг медвежонок вспомнил: 

— Пятачок, а помнишь, как в прошлом году мы охотились на 
Буку? 

— Помню, Винни, — предчувствуя неладное, осторожно сказал 
Пятачок, — а, собственно, что? 
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— Я тут подумал, что тогда была жуткая метель. А сейчас сол- 
нышко светит. Если бы мы прямо сейчас пошли искать Буку, мы 
бы наверняка его нашли! Тем более что мёд у нас уже кончился. 

Против последнего аргумента возразить было нечего, и Пята- 
чок, горестно вздохнув, поплёлся вслед за Винни-Пухом. Впрочем, 
ещё оставалась надежда, что дело кончится ничем: 

— Винни, а как мы будем его искать? Где живут Буки? 

— Это я твёрдо знаю, Пятачок! — уверенно ответил Пух. — Бука 
живёт в Самой Глубокой Яме во всём Лесу. 

— Ага. Понятно, — упавшим голосом пробормотал Пятачок, но 
надежда вновь затеплилась. — Но Винни, как же мы найдём Самую 
Глубокую Яму? 

— Пятачок, это же совсем просто! Смотри, вот тут начинает- 
ся склон вниз. Я пойду туда и буду спускаться и спускаться, пока 
совсем не спущусь, — Пух продемонстрировал, как он будет спус- 
каться, но на третьем же шаге поскользнулся и дальнейший путь 
проделал сидя. — Ох, как быстро получилось! Вот я и на дне. 

— И как, там есть Бука? — спросил Пятачок, опасливо загля- 
дывая в овраг, на дне которого оказался Винни. 
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— Похоже, что нет, — задумчиво ответил Пух. — Но как же так 
получилось... А! Понял! Эта яма — просто не Самая Глубокая. Я 
сейчас из неё вылезу, потом найду другой склон и спущусь в другую 
яму, и если та, другая, будет Самой Глубокой, то Бука точно объ- 
явится, — с этими словами медвежонок начал упорно выбираться 
из оврага. 

Пух и Пятачок ещё долго искали Самую Глубокую Яму в лесу. 
Они испробовали много разных склонов, и сидя, и стоя, и лёжа 
на животе. Было очень весело, но, видимо, глобального минимума 
найти не получилось — Бука так и не показался... 


5 3.1. Введение 


Пока что ни один, даже самый мощный и современный, ком- 
пьютер не может по своим способностям сравниться с челове- 
ческим мозгом. Да, компьютеры гораздо быстрее выполняют 
арифметические операции, но если мы хотим научить компью- 
тер чему-либо более сложному, более «человеческому» — пони- 
мать естественный язык, узнавать людей, принимать решения в 
сложных ситуациях, обучаться в широком смысле этого слова — 
компьютер пасует перед человеком. 

Почему так происходит? Однозначного ответа на этот во- 
прос, конечно, нет. Например, Роджер Пенроуз в книге «Новый 
ум короля» [173] рассматривает и отнюдь не отвергает возмож- 
ность того, что человеческий мозг в своей «вычислительной» 
деятельности использует квантовые феномены; вполне возмож- 
но, что каждый из нас носит в голове мощнейший из известных 
квантовых компьютеров. 

Но даже если оставить квантовые вычисления за бортом — 
всё-таки это вовсе не общепринятая теория — устройство наше- 
го мозга предоставляет пищу для любопытных размышлений. В 
нейросетевом подходе предполагается, что мозг состоит из ней- 
ронов, которые соединяются друг с другом в единую большую 
сеть. Когда нейрон возбуждается, он передаёт своим соседям 
электрические сигналы определённого вида. Соседи их обраба- 
тывают и передают дальше, и так далее. 

Примечательно, что соотношение скоростей передачи сигна- 
ла и человеческой реакции таково, что на самом деле цепочка 
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нейронов, которые успели бы возбудиться перед принятием ре- 
шения, не может быть длиннее нескольких сот штук! Мозг доби- 
вается своей, простите за каламбур, головоломной сложности и 
эффективности не огромным количеством последовательных 
вычислений, как современные компьютеры, а удачными связя- 
ми между своими нейронами, которые позволяют для решения 
каждой конкретной задачи задействовать цепочки небольшой 
глубины (то есть, можно сказать, не только быстрыми алгорит- 
мами, но и удачными структурами данных). 

В истории науки нередки случаи, когда люди заимствовали 
инженерные решения у матушки-природы. Многие животные, 
сами того не подозревая, становились прообразами конструктив- 
ных элементов зданий, машин и прочей аппаратуры. Поэтому 
нет ничего удивительного, что люди решили использовать свои 
знания о структуре мозга для того, чтобы имитировать его ра- 
боту — а там, чем чёрт не шутит, может, компьютер и мыслить 
начнёт. .. TaK и появились искусственные нейронные сети.! 

Стоит отметить, что искусственные нейронные сети — не 
единственный аппарат машинного обучения, основанный на иде- 
ях нейропсихологии. Современные исследователи полагают, что 
обучение по Хеббу? (Hebbian learning), в котором сети из CBA- 
занных друг с другом нейронов обучаются сходиться к задан- 
ным «впечатлениям», ещё более походит на работу мозга, чем 
нейронные сети. Однако в этой главе мы сконцентрируемся на 
последних. 


1Существует направление исследований, посвящённых более точной 
имитации работы мозга, чем та, которую мы будем рассматривать в этой 
главе. Однако их цель — не создание эффективных алгоритмов машинно- 
го обучения, а исследование мыслительных процессов человека. Поэтому 
мы не будем касаться этой проблематики, а заинтересованных читателей — 
там есть чем заинтересоваться, наука очень красивая и в высшей степени 
математическая! — отсылаем к [74,76,87]. 

2 Дональд Олдинг Хебб (Donald Olding Hebb, 1904-1985) — канадский 
психолог, один из основателей нейропсихологии. Его главный труд — «Ор- 
ганизация поведения» (1949) [65]. В нём Хебб фактически впервые предло- 
жил удовлетворительную теорию, связывающую физические и биологиче- 
ские процессы, протекающие в мозге, и его мыслительную деятельность. 
Главная идея теории заключается в следующем: если один нейрон часто 
активирует другой, ему это становится делать всё проще (второй нейрон 
«запоминает», что он часто получал импульс от первого) [65]. 
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Нейрон человеческого мозга возбуждается, если получает 
достаточно мощный электрический импульс. При этом, если 
нейрон соединён с несколькими другими нейронами, то импульс 
может получаться как некоторая функция импульсов от входя- 
щих нейронов. Простейшая математическая модель одного ней- 
poma — это перцептрон (perceptron). 

Перцептрон реализует вышеописанную модель линейными 
функциями. Он подсчитывает некоторую линейную форму от 
своих входов и сравнивает её с заданным значением — порогом 
активации (threshold). Если у перцептрона п входов хт,... Хи, 
то в нём должны быть заданы п весов W1,W2,...,Wn и порог aK- 
тивации Wọ. Перцептрон выдаёт 1, если линейная форма от вхо- 
дов с коэффициентами Wi превышает —Wọ (минус нужен, чтобы 
перенести Wọ в левую часть уже со знаком «плюс»). Иначе ro- 
воря, выход перцептрона о(х1,... хи) вычисляется так: 

РИ ЕЕ | 1, если мо + w1x1 +... Буха > 0, 
—1 в противном случае. 


В дальнейшем мы не будем различать wi, і = 1..n, и уо, а 
просто предположим, что у перцептрона есть ещё один вход хо, 
на который всегда подаётся единица. Тогда условие срабатыва- 
ния перцептрона можно записать как > бух > 0. 


ПРИМЕР 3.1. Примеры перцептронов 

Мы будем изображать перцептроны в виде узлов графа, помечая 
их значением —Wọ. Значения Wi мы будем указывать на входящих 
рёбрах. 

На рис. 3.1 изображён общий вид перцептрона, а также даны при- 
меры перцептронов, которые реализуют дизъюнкцию и конъюнкцию. 
Для дизъюнкции достаточно сделать порог активации ниже, чем лю- 
бой из весов на входе; тогда единица, полученная на любом входе, 
приведёт к срабатыванию. А чтобы получилась конъюнкция п входов, 
нужно установить такой порог активации, чтобы сумма п—1 входа бы- 
ла меньше него, а сумма всех N входов — уже больше. И дизъюнкция, 
и конъюнкция — частные случаи функций вида «т из п», которые 
легко реализуются перцептроном. 
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Рис. 3.1. Примеры перцептронов: а — общий 


вид перцептрона; 6 — перцептрон, реализую- 
щий дизъюнкцию; в — перцептрон, реализующий 
конъюнкцию 


Один перцептрон — это уже достаточно мощный инстру- 
мент: он может реализовать любую гиперплоскость, рассекаю- 
щую пространство возможных решений. Например, если целе- 
вая функция (функция, которую мы пытаемся приблизить при 
помощи нейронной сети) позволяет линейно отделить свои 
положительные значения от отрицательных (то есть если суще- 
ствует такая гиперплоскость, что все положительные значения 
лежат по одну её сторону, а отрицательные — по другую), то 
вполне достаточно будет создать сеть из одного перцептрона. 
Кстати, задачи с линейно отлелимыми множествами решений 
возникают на практике очень часто, хотя обычно для их реше- 
ния используют не перцептроны, а метод опорных векторов 
(support vector machines), который мы в этой книге не рассмат- 
риваем [34]. 

Мы объединяем перцептроны в сети, подавая выходы одних 
перцептронов на входы других. Эта конструкция оказывается 
очень выразительной. Фактически, уже сеть глубины 2 — это 
всё, что может нам понадобиться для того, чтобы решить любую 
булевскую задачу. 
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ТЕОРЕМА 3.1. Любая булевская функция представима в 
виде построенной из перцептронов искусственной нейрон- 
ной сети глубины 2. 


ДОКАЗАТЕЛЬСТВО. Известно, что всякую булевскую функ- 
цию f можно представить в виде дизъюнктивной нормальной 
формы (ДНФ) — конъюнкции нескольких дизъюнкций — ив 
виде конъюнктивной нормальной формы (КНФ) — дизъюнк- 
ции нескольких конъюнкций. Как мы уже видели выше (см. 
рис. 3.1), существуют перцептроны, реализующие дизъюнкцию 
и конъюнкцию. Таким образом, чтобы представить +, достаточ- 
но сети глубины 2, выражающей ДНФ функции f. 


Стоит отметить, что представление функции в виде ДНФ 
вполне может оказаться неэффективным, в том числе даже экс- 
поненциально более неэффективным, чем какое-нибудь другое, 
более хитрое представление. Поэтому не стоит торопиться вы- 
ражать все функции сетями глубины 2 — не исключено, что 
для этого потребуется слишком много нейронов, а сеть большей 
глубины могла бы решить ту же самую задачу более разумно. 


ПРИМЕР 3.2. Сеть, реализующая ХОК 

Поучительный пример — сеть, реализующая исключающее ИЛИ 
(XOR). На рис. 3.2а изображена сеть глубины 2, реализующая XOR 
двух переменных хФу (проверьте это!). На рис. 3.2в аналогичная сеть 
реализует XOR трёх переменных xX ФуФ 2. 

Лальнейшее понятно: каждая новая переменная приносит лишь 
линейное увеличение в числе требуемых перцептронов, и общее их ко- 
личество либо квадратично (если считать так, как показано на рис. 3.2), 
либо линейно (для этого нужно либо предположить, что вход 2 мож- 
но подать сразу на вход перцептронам третьего уровня, без промежу- 
точных тривиальных перцептронов, либо просто построить бинарное 
дерево из ХОЁ’ов, в котором на каждом уровне, то есть на каждых 
двух уровнях нейронной сети, число переменных уменьшается вдвое). 

Если же ограничиваться сетями глубины 2, то дело значительно 
хуже. И ДНФ, и КНФ функции PARITY (чётность; х Ф...Ф Xn) 
имеют экспоненциальный размер; были доказаны и нижние оценки 
для собственно перцептронов [10,55,56]. На рис. 3.26 приведён пример 
сети глубины 2, реализующей функцию чётности трёх переменных 
(чтобы не загромождать рисунок, мы размножили входы; на самом 
деле, конечно, на х, у и 2 приходится по одной вершине). 
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x— | 


Рис. 3.2. Сети, реализующие XOR: а — двух 
переменных; б — сеть глубины 2, реализующая 
ХОВ трёх переменных; в — сеть глубины 4, реа- 
лизующая XOR трёх переменных 


Главное ограничение линейных перцептронов без лимита ак- 
тивации состоит в том, что они реализуют исключительно ли- 
нейные функции. А композиции линейных функций снова ока- 
зываются линейными. В результате объединять такие перцеп- 
троны в сеть бессмысленно: вся сеть будет эквивалентна одному- 
единственному перцептрону. 

На самом же деле искусственные нейронные сети могут ис- 
пользоваться и для куда более амбициозных задач. Но для это- 
го им потребуются иные, более мощные элементы, о которых 
пойдёт речь ниже. А сейчас мы вспомним об основной стоящей 
перед нами задаче и рассмотрим обучение одного перцептрона. 
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Рис. 3.3. Обучение перцептрона: а — перед нача- 
лом обучения; 6 — после первого шага обучения; 
в — перцептрон, реализующий дизъюнкцию 
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Уже понятно, что перцептроны отличаются друг от друга 
исключительно весами Wi. Значит, обучение должно заключать- 
ся в том, чтобы подправлять эти веса в соответствии с поведе- 
нием перцептрона на тестовых примерах. При этом, если пер- 
цептрон отработал правильно, веса, скорее всего, измениться не 
должны, а если неправильно, то должны сдвинуться в сторону 
желаемого. 

Вудем пока рассматривать сеть из одного перцептрона. По- 
становка задачи: научить такую сеть распознавать частично за- 
данную булевскую функцию на основании данных о том, как 
справился перцептрон с тестовыми данными. 

Простейший алгоритм так и называется в литературе — пра- 
вило обучения перцептрона (perceptron training гше). На Kax- 
дом шаге обучения вес у изменяется в соответствии с правилом 


wi := wi (Е — o)xi, 


где t — значение целевой функции, O — выход перцептрона, 
п > 0 — небольшая константа (обычно 0,05-0,2), которая задаёт 
скорость обучения. 


ПРИМЕР 3.3. Обучение перцептрона 

Предположим, что мы хотим обучить перцептрон, изображённый 
на рис. 3.За, реализовывать дизъюнкцию своих входов. Для этого нуж- 
но, чтобы значение и W1, и W2 стало больше значения порога сраба- 
тывания Wọ. Пусть п = 0,1, и у нас есть следующий набор тестовых 
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данных: 
х=0, х=1 => фы]: 
х= 1, х2=0 => 1і=1. 

Первый же тест приведёт к ошибке: перцептрон выдаст о = -1, 

а искомый выход — { = 1. Таким образом, веса перцептрона будут 
подправлены следующим образом (см. рис. 3.36): 


wo := wo +1 (Е — 0)жо = —0,6 +0,1: (1— (—1)):1= —0,4, 
уут =w +1 (+— 0) = _ 03+01-(1—(—1))-0= 03, 
w2 := 2 БЕ 0)хо = 04+01-(1—(—1))-1=_ 0,6. 


В полученном перцептроне один из весов на входе уже больше, 
чем порог активации. Олнако второй тест подаёт на этот вход ноль, 
и снова выясняется, что перцептрон не сработает. На этот раз веса 
придётся изменить так: 


wo := мо +n(t— 0)xo = 0,4 + 0,1: (1—(—1))-1 = 0,2, 
мл := мл + 1(&—0)х =  0,3+0,1.(1—(—1))-1= 05, 
w2 := м: + ПЕ 0)х2 = 06 +01. (1- (—1)).0= 0,6. 


Полученный перцептрон (рис. 3.3в) реализует дизъюнкцию своих 
входов, то есть обучен и готов к труду и обороне. 


Может случиться так, что одной итерации по всем тестовым 
примерам будет недостаточно для того, чтобы исправить каж- 
дую ошибку (если бы в примере 3.3 п была бы равна не 0,1, 
а 0,01, веса были бы исправлены в нужную сторону, но недо- 
статочно). Поэтому нужно запускать алгоритм по имеющимся 
тестовым примерам до тех пор, пока очередной прогон алгорит- 
ма по всем тестам не оставит все веса на месте. Одно приме- 
нение алгоритма ко всем тестовым примерам называется INO- 
той (epoch). Получившийся алгоритм представлен на рис. 3.4. 
На вход ему подаётся набор из т тестовых примеров {хи} и 
скорость обучения N, а на выходе получаются значения Wi пер- 
цептрона, который линейно разделяет эти тестовые примеры. 

Алгоритм на рис. 3.4 сходится к правильному перцептрону 
всегда, когда это возможно. 


ТЕОРЕМА 3.2. Если некоторое подмножество точек n- 
мерного булевского куба Су С {0,1} можно в {0,1} отде- 
лить гиперплоскостъю от другого подмножества точек 
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PerceptronTraining(n, pi dpm 1) 


i=1 j= 
1. Инициализировать {изо маленькими случай- 
ными значениями. 
2. WeightChanged := true. 
3. Пока WeightChanged = true: 
а) WeightChanged := false. 
6) Для всех } от 1 до т: 
(i) Вычислить 


ој 1, ecan wo + wix} +... Буха > 0, 
—1 в противном случае. 


(1) Если of Æ ti: 
(A) WeightChanged = true. 
(В) Для каждого i от 0 до п изменить 
значение Wi по правилу 
j 


wi := wi +nlt — о}. 


4. Выдать значения Wọ,W1,...,Wn- 


Рис. 3.4. Алгоритм обучения перцептрона 


Сә C {0,1}, то алгоритм обучения периептрона за KOHEN- 
ное число шагов выдаёт параметры перцептрона, который 


успешно разделяет множества Су u С». 


ДОКАЗАТЕЛЬСТВО. Итак, мы предполагаем, что входы при- 
надлежат к отделимым гиперплоскостью множествам; это озна- 


чает, что существует такой вектор и (нормаль к той самой ги- 


перплоскости), что 


УХЕ Ст и'х>0, 
УхеЕ Сә чх<0. 


Цель обучения перцептрона — сделать так, чтобы веса перцеп- 


трона w образовывали такой вектор U. 


Прежде всего заменим С» на —С› = {-х | x € С]. Это поз- 


волит нам объединить два неравенства в одно: 
УхХЕС их > 0, 
где С = C1 U (-С.). 
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Рис. 3.5. К доказательству теоремы 3.2 


Теперь давайте посмотрим на стоящую перед нами задачу 
с геометрической стороны. Мы хотим построить вектор W, KO- 
торый образует острые углы со всеми тестовыми примерами х. 
Для этого мы его обучаем: если вдруг обнаружится вектор, с 
которым уу образует тупой угол, мы просто прибавим его к W 
(предварительно, конечно, домножив на константу 1). 

Осталось только понять, почему же этот процесс закончит- 
ся. Для этого мы рассмотрим вектор, который действитель- 
но образует с ними тупые углы (по предположению теоремы, 
такой вектор существует), и будем доказывать, что последова- 
тельность длин проекций W на этот вектор не может быть бес- 
конечной. 

На рис. 3.5 изображено происходящее: мы подправляем W и 
пытаемся при этом проконтролировать проекцию w на u. Aa- 
вайте теперь выразим всё это формально. 

Обозначим через wÎ, w!,... векторы весов перцептрона на 
соответствующих этапах обучения, через х0,х!,... — векторы 
тестовых примеров. Предположим (без потери общности), что 
w° = 0, все тестовые примеры принадлежат С, и на всех тесто- 
вых примерах (м)! х“ < 0, то есть перцептрон не справляется 
с тестом (если он справляется с тестом, то веса перцептрона ни- 
как не меняются, поэтому такие тесты можно просто исключить 
из последовательности). В таком случае наше правило обучения 
выглядит как 


k+l 4k k 
wi М+Ж, 
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и легко видеть, что в наших предположениях 


к 1 
j=0 


Идея доказательства состоит в TOM, чтобы получить две се- 
рии противоположных оценок на длину векторов |м/| и moxa- 
зать, что они не могут обе иметь место до бесконечности. Это и 
будет означать, что любая конечная последовательность тестов 
из двух фиксированных линейно отлелимых множеств рано или 
поздно закончится, и все последующие тесты перцептрон будет 
проходить успешно." 

Рассмотрим вектор и, являющийся решением, и обозначим 
через х минимальную проекцию любого из х) на и: 

х = minul x. 
j 
Поскольку разных тестов конечное число, х > 0. 


Тогда. 
к 


ulw! = пи! Ж xÍ > nak 
j=0 
(на самом деле даже по(К+1), но для простоты мы сделаем оцен- 
ку ещё сильнее). Вспомним неравенство Коши-Буняковского: в 
пространстве со скалярным произведением 


21112 > 
\х| [ы > (кту)? 
Применительно к нашей задаче неравенство Коши-Буняковского 
утверждает, что 


кы? 


үч» (по), | 


Иными словами, на каждой итерации длина вектора уук воз- 
растает линейно (а её квадрат |м’“|? — пропорционально К). 
Остальные члены правой части неравенства — константы. 


1 Можно подумать, что «конечная последовательность тестов» закончит- 
ся в любом случае; но напомним, что наш алгоритм повторяет тесты до тех 
пор, пока перцептрон не научится проходить их все. Речь идёт лишь о том, 
что в этой (возможно, бесконечной) последовательности тестов участвует 
конечное число различных векторов х'. 
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k+1 


С другой стороны, и”! = wK+nx*. Поскольку (мк) хк < 0, 


уи 2 = [ме [+ 29 МУК) 7х + 2х? < wl + nF. 


Следовательно, |w |2 |м/ |2 < 12х42. Суммируя по К, 
имеем: 


k 
Iwe? «2 5 xI < твк, 
j=0 


где В = шах; |x} |? (мы опять воспользовались тем, что тестовых 
примеров конечное число). 
Итак, у нас получились две оценки: 


2 
2 < мк 2 < 12Вк. 


Очевидно, что рано или поздно с ростом К (К — это натураль- 
ное число) эти оценки войдут в противоречие друг с другом. Это 
значит, что последовательность применения одних и тех же те- 
стовых примеров не может быть бесконечной: рано или поздно 
все примеры, если это было вообще возможно, будут перцептро- 
ном проходиться правильно. 


5 3.4. Обучение перцептрона на практике 


Обучение перцептрона — очень простая и доступная зада- 
ча, которую на подавляющем большинстве языков программи- 
рования можно реализовать в два-три десятка строчек. Поэто- 
му оно хорошо подходит для того, чтобы продемонстрировать 
некоторые языки программирования, которые будут в дальней- 
шем использоваться в этой книге (напоминаем, что владеть все- 
ми представленными здесь языками программирования вовсе не 
обязательно, задача, как правило, в том, чтобы сначала найти 
язык, наилучшим образом подходящий для решения стоящей 
перед вами задачи, а потом уже можно изучить его тонкости). 

В листинге 3.1 приведён код программы на языке Python, 
реализующей обучение одного перцептрона. На вход подаются 
значение п и массив тестовых примеров в формате 


ПОИ АИ 
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В строке 4 значения весов инициализируются небольшими слу- 
чайными значениями. В строке ? мы читаем формат входных 
данных и заменяем для удобства 4) на единицу, то есть на хб. 
Последняя строка — пример использования реализованной под- 
программы; на выходе должно получаться нечто вроде перцеп- 
трона, реализующего конъюнкцию трёх входов («нечто вроде», 
потому что функция задана частично, и вполне возможно, что 
при некоторых комбинациях начальных данных результат будет 
не совсем идеальным). В листинге 3.2 приведён тот же алгоритм 
с тем же форматом входа и выхода, но на языке Ruby. 


Листинг 3.1. Обучение перцептрона на языке Python 


def PerceptronTraining(eta,x): 
import random 
w=[] 
for i in range(len(x[0])): 
w.append( (гапіот.гапігапве(-5,5)) /50.0) 


WeightsChanged=True 
while (WeightsChanged==True) : 
WeightsChanged=False 
for xj in х: 
t,o,curx=xj[0] ,0, [1]+xj[1:len(xj)] 
for i in xrange(len(w)): o+=w[i]*curx[i] 
if о>0: o=1 
else: о=-1 
if (o==t): continue 
WeightsChanged=True 
for і in xrange(len(w)): w[i]+=eta*(t-o)»curx[i] 
return w 


Листинг 3.2. Обучение перцептрона на языке Ruby 


def PerceptronTraining(eta, x) 
w = Array.new(x[0] .size){(rand(11) - 5) / 50.0} 


weightsChanged = true 
while weightsChanged 
weightsChanged = false 
х.еасһ { |х)| 
t, o, curx = xj[0], 0, [1] + xj[1..-1] 
(0...w.size).each { lil o += w[i] * curx[i] } 
if o > 0 then o = 1 else o = -1 end 
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if o != t 
weightsChanged = true 
(0...w.size).each { lil 
w[i] += eta * (t - o) * сигх[1] 


end 


Третий пример в этом параграфе будет на языке логическо- 
го программирования — Prolog!. Основой языка является ав- 
томатический доказатель (theorem prover), который может 
производить логический вывод на хорновских формулах. Про- 
цесс выполнения программы — это доказательство или опро- 
вержение заданного факта путём логического вывода из кода 
программы. Функциональные языки очень хорошо реализуют 
рекурсию; классический пример — вычисление факториала — 
на языке Prolog выглядит так: 

Ғасъогіа1(0,Е,Е). 
Ғасъогіа1(М,А,Е) :- 
N > 0, 
A1 is N*A, 
N1 is N-1, 
factorial(N1,41,F). 
Обратите внимание, что B Prolog приходится вводить третий 
параметр, в котором, собственно, и будет вычисляться факто- 
риал: предикат factorial будет истинным только для одного 
значения F. Дело в том, что, вообще говоря, Prolog работает с 
предикатами; так, например, предикат, проверяющий, является 
ли одно число факториалом другого, выглядел бы проще. Для 
более подробного ознакомления с языком Prolog можно mope- 
комендовать [33,43], а мы сейчас просто приведём конкретный 
пример. 


1 Авторы, Ален Колмероэ (Alain Colmerauer) и Филип Руссель (Philip 
Roussel), были французами, поэтому Prolog — это «Programmation еп 
Logique». 
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Листинг 3.3. Обучение перцептрона на языке Prolog 


write_list([A|B]):- 
write(A), 
nl, 
write_list (B). 


write_list([]). 


% случай МО + М1*Х1 + ... + Wn*Xn > 0, t=1 
testsum_is_bigger_then_wO([T|T_TAIL] , [W|W_TAIL] ,SUM) :- 
T_TAIL=[], 
W_TAIL=[], 
SUM> -(W), 
T=:=1,!. 


% случай WO + М1*Х1 + ... + Wn*Xn <= 0, t=0 
testsum_is_bigger_then_wO([T|T_TAIL] , [W|W_TAIL] ,SUM) :- 
T_TAIL=[], 
W_TAIL=[], 
SUM =< -(W), 
T=:=0,!. 


testsum_is_bigger_then_wO([T|T_TAIL] , [W|W_TAIL] ,SUM) :- 
NEXT_SUM is SUM+(T*W), 
testsum_is_bigger_then_wO(T_TAIL,W_TAIL,NEXT_SUM). 


one_test_passed([T|T_TAIL] , [WIW_TAIL]):- 
SUM is T*W, # "инициализация" SUM 
testsum_is_bigger_then_wO(T_TAIL,W_TAIL,SUM). 


% проверка тестов Т при весах W 

check_tests ([T|TAIL],W):- 
one_test_passed(T,W), 
check_tests(TAIL,W). 


check_tests([],_). 


% Здесь 0.1 - константа, задающая скорость обучения. 
correct (ГТІ []] , [w] []] , [CRTD_W] []],0):- 
CRTD_W is W+0.1*(T-0). 


% Применение формулы. 

correct (ГТІТ_ТАІІ], [WIW_TAIL] , [CRTD_WICW_TAIL] ,0):- 
CRTD_W is W+0.1*(T-0)*T, 
correct (Т_ТАТТ, ‚М_ТАТТ, ‚ СМ_ТАТТ,,О). 


ргосеѕѕ _соцп+ _іёег([_1 [11 , ГІ [1] ‚С9В_00,00):- 
00 is СОВ_00 + W. 
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process_count_iter([T|T_TAIL] ,[WIW_TAIL] ‚СОВ_00,00):- 
NEW_00 is CUR 00 + TW, 
process_count_iter(T_TAIL,W_TAIL,NEW_00,00). 


% получение результата функции при текущих Becax 
get_cur_res([T|T_TAIL] , [М М_ТАТГ.] ,0):- 
ЭТАВТ_00 is T*W, 
process_count_iter(T_TAIL,W_TAIL,START_00,00), 
00 > O, 
0= 1. 


get_cur_res([T|T_TAIL] , [WIW_TAIL],0):- 
ЭТАВТ_00 is T*W, 
process_count_iter(T_TAIL,W_TAIL,START_00,00), 
00 =< 0, 
0 = -1. 


check_and_correct([T|T_TAIL] „М, МЕМ_М):- 
опе_+ез+_раззеа(Т,\), 
check_and_correct(T_TAIL, М, МЕМ_М). 


check_and_correct([T|T_TAIL] „М, МЕМ_М):- 
get_cur_res(T,W,0), 
correct (T,W,CRTD_W,0), 
write(’correction:?’),nl, 
write_list(CRTD_W),nl, 
check_and_correct(T_TAIL,CRTD_W, МЕМ_М). 


check_and_correct([],W,W). 
train_perceptron(T,W,RETURN_W):- 
check_tests(T,W), 
RETURN_W=W. 
train_perceptron(T,W,RETURN_W) : - 
сһеск_апа_соггес+ (Т,М,МЕМ_М), 
$та1п_регсерфгоп(Т ‚,МЕМ_М,ВЕТОВМ_М). 


start:- 


% Теперь - ввод и вывод. T - тесты. Например, 


% Т=[[0,1,11,[1,0,1171] 
% означает 
VA [х1=0, x2=1, t=1], [x1=1, x2=0, t=1] 


write(’Enter test cases 
[[x1,x2,...t], [x1,x2,...t], ...].?),п1, 
read(T), 
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% W - веса. Например, 


% w=[0.3,0.4,-0.6] 

% означает 

% [w1 = 0.3, м2 = 0.4, wO = -0.6] 
write(’Enter weights [м1, w2, ..., w0].?’),nl, 
read(W), 


train_perceptron(T,W,CORRECT_W), 
write (?гевп1%:?),п1, 
write_list(CORRECT_W),nl. 


$ 3.5. Метод градиентного спуска 


В примере 3.3 нам повезло: дизъюнкция оказалась функ- 
цией, положительные значения которой можно линейно отде- 
лить от отрицательных. Но что делать, если нужно реализовать 
функцию, для которой это невозможно? Если нельзя увеличи- 
вать сложность нейронной сети (а мы пока останемся в рамках 
одного перцептрона), то точного попадания в функцию не до- 
стичь. 

Нужно найти перцептрон, который бы в каком-то смысле 
минимизировал ошибку. Сначала немного обобщим стоящую 
перед нами задачу: откажемся от идеи порога срабатывания и 
предположим, что мы просто вычисляем перцептроном функ- 
цию 


n 
о(хо, ... Xn) = р WiXi, 
=0 


а нужно нам как можно лучше приблизить функцию 
{(хо,...,Хл), 
которая на тестовых примерах х), j = 1..m задана значениями 
ое 
В качестве меры ошибки рассмотрим среднеквадратичное 
отклонение от целевых значений: 


Е(И,... Ми) =5 У (6 -0(%,... 4,2. 


Эта мера широко используется в статистике; она как нельзя луч- 
ше подходит и для нашей задачи (разговор о том, почему под- 
ходит, предстоит нам в $ 5.9). 
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GradientDescent(n, ру л ) 
1. Инициализировать (уу: „ маленькими случай- 
ными значениями. 
2. Повторить NUMBER ОЕ STEPS раз: 
а) Для всех і от 1 ao n Ли; := 0. 
б) Для всех j от 1 до т: 
(1) Для всех тот 1 дот 


п. 
Awi := Awi + п 0 У wx х). 
0 


в) wi := wi + Awi. 
3. Выдать значения Wọ,W1,...,Wn- 


Рис. 3.6. Алгоритм градиентного спуска для од- 
ного перцептрона 


Цель — минимизировать функцию Е на пространстве воз- 
можных весов {wi}. График функции Е представляет собой ma- 
раболическую поверхность, и у неё должен быть один-единст- 
венный минимум. А вопрос о том, как исправлять веса так, что- 
бы двигаться в сторону этого минимума, давным-давно решён в 
математическом анализе. Для этого нужно двигаться в направ- 
лении, противоположном градиенту — вектору, вдоль которого 
производная максимальна.! Градиент вычисляется следующим 
образом: 


_ Г9Е 9 dÆ 
— [дуо ðw Awn 


VE(wo,...,Wn) 


Таким образом, чтобы определить, как подправлять веса, мы 
должны вычислить градиент и отнять вектор градиента, умно- 
женный на какую-нибудь наперёд заданную константу (это та 
самая константа скорости обучения N), от имеющегося вектора 


\Стоит отметить, конечно, что ещё раньше был решён и вопрос о том, 
где у квадратичной функции минимум. Иначе говоря, в данном случае мы 
могли бы не подправлять веса, а напрямую, решив систему линейных урав- 
нений, получить оптимальное значение весов перцептрона. Однако такой 
подход сработал бы только для линейных перцептронов, а нам приходится 
держать в голове и более сложные случаи; они начнутся уже в 8 3.6. 
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весов: 
дЕ 


"аур" 
Чтобы реализовать это программно, нужно научиться диф- 
ференцировать функцию Е; к счастью, это совсем несложно: 


Wi := Wi 


2 m 


дЕ 1&3 [j Š, j T E ; 
ая t ми =F. Гео (4 


j=1 j=1 


Это значит, что нам нужно подправлять веса после каждого 
тестового примера по следующему правилу: 


n 
wi := ит». 0 У wx а 
j 0 


Новый, адаптированный алгоритм называют алгоритмом 
градиентного стуска; он показан на рис. 3.6. Правда, нужно 
внести и другие изменения. Во-первых, мы больше не можем 
рассчитывать на то, что за конечное время достигнем идеальной 
гармонии с исходными данными; поэтому нам нужно научить- 
ся останавливаться в какой-то момент. В качестве условия для 
остановки здесь можно принять простое повторение алгорит- 
ма достаточное число раз. Другое изменение — в том, что если 
оставлять значение т постоянным, то на каком-то этапе вектор 
весов перестанет приближаться к искомому минимуму, а начнёт 
его «перепрыгивать» на каждой итерации, то в одну сторону, то 
в другую. Поэтому п нужно уменьшать со временем, например 
иногда делить пополам. Записывать это в алгоритм излишне, и 
мы реализуем эту особенность в тексте собственно программы 
(строки 8-10), а в алгоритм вносить не будем. 


Листинг 3.4. Градиентный спуск на языке Python 


def PerceptronGradientDescent (ефа0 ‚х,МОМВЕВ_ОЕ_5ТЕРЗ): 
import random 
eta,w,deltaw=eta0, [] , [] 
for i in xrange(len(x[0])): 
w.append( (random. randrange (-5,5))/50.0) 
ае1+ам.аррепа (0) 
for і іп хгапре (МОМВЕК_ОЕ_5ТЕРЗ) : 
if ((NUMBER_OF_STEPS > 100) and 
(1 % (NUMBER_OF_STEPS/5))==0): 
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ета = ефа/2.0 

for і in хгапре (1еп(м)): deltaw[i]=0 

for xj in х: 
t,o,curx=xj[0] ‚0, [11+х]ј[1:1еп(хј)] 
for і in xrange(len(w)): о+=и [1] *сигх [1] 
for i in xrange(len(w)): 

deltaw[i]+=eta*(t-o)*curx[i] 
for і in xrange(len(w)): w[i]+=deltavw[i] 
return w 


Как видно, здесь нет ничего нового для нас в смысле про- 
граммирования. Но вот следующий листинг уже представляет 
значительный интерес; в нём мы впервые столкнёмся с язы- 
ком ML. Язык МГ, как и Prolog, — функциональный язык; 
ML означает «metalanguage», а язык создавался специально как 
внутренний язык для одного из автоматических доказателей. 
Главная причина, по которой ML стал чем-то большим, чем 
ещё один малоизвестный функциональный язык, — это появ- 
ление его потомка Саш! (ML тут уже расшифровывается по- 
другому: Categorical Abstract Machine Language), который позд- 
Hee был расширен до Ocaml (Objective Caml), стал объектно- 
ориентированным и сейчас достаточно активно используется. 
Вот как вычисляется факториал на ML (обратите внимание, 
что, в отличие от Prolog, ML «мыслит» функциями, а не преди- 
катами): 


1 
п ж Ғас(п-1) 

Подробнее о языках семейства ML (в основном об Осаш1) 
можно прочесть в [26, 29], а мы сейчас перейдём к обучению 
перцептрона. 


fun fac 0 
| fac п 


Листинг 3.5. Градиентный спуск Ha языке ML 


structure grad_descent : sig 
val main : unit -> unit; 


end = 
struct 
fun scalar_product((x : real) :: xt, (y : real) :: yt) = 
case xt of 
О => х жу 


| хх :: xtt => x ж у + ѕса1аг_ргойисї (xt, yt) 
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fun sigma(x : real) = 1.0 / (1.0 + Мабь.ехр(0.0 - х)) 
fun perc_value(w:real list, х:геа1 list) = 
sigma(scalar_product(w, x)) 
fun adjust(eta : real, (wi : real) :: wt, 
(xi : real) :: test, answer : real, 
perc_ans : real) = 
case wt of 
[] => [(wi + eta * perc_ans * 
(1.0-perc_ans) * (answer-perc_ans) * xi)] 
| wii :: wtt => (wi + ефажрегс_апз* 
(1.0-perc_ans)*(answer-perc_ans)*xi) 


adjust(eta, wt, test, answer, perc_ans) 
fun one_step(eta : real, w : real list, 
(cur_test : real list) :: xt, 
(cur_ans : real) :: +) = 
case xt of 
[] => adjust(eta, w, cur_test, 
cur_ans, perc_value(w, cur_test)) 
| ct :: xtt => let 
val new_w = adjust(eta, w, cur_test, 
cur_ans, perc_value(w, cur_test)) 
in 
one_step(eta, new_w, xt, t) 
end 
fun gradient_descent (eta : real, number_of_steps : int, 
w : real list, x : real list list, t : real list) = 
case number_of_steps of 


0 => м | 
п => let 
val пем_м = gradient_descent (eta, 
n - 1, w, x, t) 
in 
one_step(eta, пеи_и, х, t) 
end 
fun random_list 0 = [] 


| random_list n = let 

val gen = System.Random() 
in 

gen.#NextDouble() :: random_list(n - 1) 
end 
fun print_list П = О 

| print_list ((x:real)::xs) = 

(print (Real.toString x); print " "; print_list xs) 
fun main () = 
let 

val test1 = [1.0, 1.0, 1.0, 0.0] 

val апз1 = 1.0 
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val test2 = [1.0, 0.0, 0.0 - 1.0, 1.0] 
val апз2 0.0 
val init = гапаот_ 115+ (4) 
їп 
print_list ( 
gradient_descent(0.001, 10000, init, 
[test1, test2], [апз1, ans2]) 


end 


ПРИМЕР 3.4. Обучение перцептрона градиентным спуском 
Попытаемся выразить перцептроном линейную форму ху —х2- хз. 

Для этого вызовем процедуру из листинга 3.4 так: 

print PerceptronGradientDescent(0.1, [[1,1,1,1], [1,0,-1,0], 

[1,1,0,0], [1,0,0,1], [0,0,1,1], [2,1,0,1]], 1000) 

(подаём на вход константу обучения 0,1, вектор из шести тестовых 

примеров и количество итераций 1000). Тогда на выходе мы получим 

вектор 


[wo,w1 ,w2,w3] = [0,00078384114974986135, 
0,99962820707427769, — 0,99942100811538592, 0,99902715041783252], 


что уже является очень хорошим приближением к искомой линейной 
форме. 


На рис. 3.7 изображена стохастическая модификация алго- 
ритма градиентного спуска. Этот алгоритм может преодолевать 
локальные минимумы (у рассматривавшегося нами до сих пор 
параболоида локальных минимумов быть не может, но в более 
сложных случаях они встречаются). Его отличие в том, что он 
не собирает всю информацию со всех тестовых примеров, а мо- 
лифицирует веса сразу же, после каждого примера. 


$ 3.6. Нелинейные перцептроны. Сигмоид. 


Теперь, когла мы разобрались с обучением одного перцеп- 
трона, нужно научиться обучать (простите за тавтологию) це- 
лые сети перцептронов. Однако для этого нам придётся снова 
изменить функцию, вычисляемую перцептронами. Дело в том, 
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GradientDescent(n, т ) 
1. Инициализировать {изо маленькими случай- 
ными значениями. 
2. Повторить NUMBER ОЕ STEPS раз: 
а) Для всех } от 1 до т: 


(1) Для всех тот 1 дот 


n 
wi = и: + |t — ; мх) | х2. 
0 
3. Выдать значения Wọ,W1,...,Wn- 


Рис. 3.7. Алгоритм стохастического градиентно- 
го спуска 


что те линейные перцептроны без порога активации, для кото- 
рых у нас уже есть отличный метод градиентного спуска, для 
сетей не годятся. Суперпозиции линейных функций снова ли- 
нейны, и сеть любой глубины можно было бы заменить одним- 
единственным перцептроном. Лучше обстоят дела у перцептро- 
нов с порогом активации: там уже увеличение глубины с | до 2 
приносит реализацию всех булевских функций. Но с ними Apy- 
гая проблема: функция, которую они реализуют, лишь кусочно- 
гладкая, и требующий дифференцируемости метод градиентно- 
го спуска не сработает. 

Решение, разумеется, простое: нужно «сгладить» линейный 
результат суммирования с весами Wi, т.е. в качестве выхода пер- 
цептрона использовать гладкую монотонную, но не линейную 
функцию. Для этого обычно используют сигмоид — функцию 
вида 
т 1 
“туе 

Применять мы её будем после того, как подсчитаем скаляр- 
ное произведение } ;wixi. То есть общая формула работы mep- 
цептрона такова: 


с(х) 


о(хт,...,Ха) 
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Стоит отметить, что приведённая выше о(х) — это не един- 
ственная функция, носящая гордое имя сигмоида. Сигмоид-кр- 
ивые так называются просто потому, что имеют форму буквы 
«5»; избранная нами функция происходит из так называемой 
логистической функции 


Ө 


ытыыр 


которая используется, кроме нейронных сетей и статистики, для 
моделирования, например, роста популяции в условиях ограни- 
ченных ресурсов или роста опухоли в организме.\ Но для тех 
же целей можно применять и функцию Гомпериа 


y(t) = ае? 


с некоторыми отрицательными параметрами Ъ и с. А можно 
пользоваться и обычным арктангенсом, гиперболическим TAH- 


генсом или функцией f(x) = л: Мы в дальнейшем будем 


рассматривать сигмоид о(х) = 7—1; приведённые ниже форму- 

лы легко модифицировать и для других аналогичных функций 

(хотя они могут потерять изрядную долю своего изящества). 
Наш сигмоид обладает важным преимуществом: от него лег- 


ко считать производную. Верна формула: 
с'(х) = о(х)(1 — с(х)). 


Поэтому правило изменения веса в случае одного перцептрона 
(на одном тестовом примере) будет выглядеть так: 


wi := wi + по(х) (1 — о(х)) (6х) — o(x))xi, 


где t(x) — целевое значение интересующей нас функции. Впро- 
чем, все эти сложности мы вводили не для того, чтобы ограни- 
чиваться одним перцептроном. 
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Итак, отныне и впрель у нас не один перцептрон, а целая 
их сеть, примерно такая, как показано на рис. 3.8. С точки зре- 
ния структуры нейронная сеть обычно представляет собой граф, 
вершины которого разделены на несколько уровней, и межлу 


\Впрочем, это одно и то же: опухоль — это и есть популяция клеток, 
растущая в условиях ограниченных ресурсов окружающего организма. 
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Т 
y 


Outputs 


Рис. 3.8. Нейронная сеть 


всеми вершинами каждой пары соседних уровней проведены все 
рёбра (рис. 3.8 это и иллюстрирует). Если на самом деле ока- 
жется, что какие-то входы не должны оказывать влияние на 
некоторые перцептроны, эти перцептроны просто обучат себе 
нулевые веса в нужных местах. 

У нейронной сети есть входы х1,...,хл, выходы Outputs и 
внутренние узлы. Перенумеруем все узлы (включая входы и вы- 
ходы) числами от 1 до М. Обозначим через wij вес, стоящий на 
ребре, соединяющем 1-й и ј-й узлы, а через о; — выход і-го y3- 
ла. Поскольку выходов теперь несколько, функция ошибки ста- 
нет сложнее. Если у нас, как и прежде, т тестовых примеров с 
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целевыми значениями выходов {tå} а=1..тп,кєОшршв› то функция 
ошибки выглядит так: 


Е( иу) = S У (о... 
Ра kEOutputs 
Kax модифицировать Beca? Мы будем реализовывать стоха- 
стический градиентный спуск, то есть будем подправлять веса 
после каждого тестового примера. Как и раньше, нам нужно 
двигаться в сторону, противоположную градиенту, то есть до- 
бавлять к каждому весу Wij 


дЕ 1 2 
Еа а = d d 
Дуу = Nw где E (0%) =; р (6 = ой) 
Wij 
kEOutputs 
Как подсчитать эту производную? Пусть сначала интересу- 
ющий нас вес входит в перцептрон последнего уровня, то есть 
j Е Outputs. Сначала отметим, что Wij влияет на выход перцеп- 
трона только как часть суммы $; = }) ; мухі, где сумма берётся 
по входам )-го узла. Поэтому 
DET Et д5; дЕ 
= = Xij . 
дуу; 05; АДУ 05; 
Аналогично, 5; влияет на общую ошибку только в рамках выхо- 


да ј-го узла о; (напоминаем, что это выход всей сети). Поэтому 
(по формуле лифференцирования сложной функции) 


DEt DETO; д1 > \ (дс; 
95: do; ðS; | 3o; 2 (tk ок) aS, J 
) ) J J kEOutputs J 


1 ð 
= (22-5 9 (0;(1—0;)) = —0;(1 — oj) (tj — о;). 


Если же ј-й узел — не на последнем уровне, то у него есть 
выходы; обозначим их через сһ(ј). В этом случае 


DEI DET д5к 
д5; En д5к д5; 
и 


О; 
= \/;ко; (1 = oj). 
J 
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Здесь э — это в точности аналогичная поправка, но вы- 
численная для узла следующего уровня (будем обозначать её 
через бу — OT Ак она отличается отсутствием множителя —NXij). 
Поскольку мы научились вычислять поправку для узлов по- 
следнего уровня и выражать поправку для узла более низкого 
уровня через поправки более высокого, можно уже писать алго- 
ритм. Именно из-за этой особенности вычисления поправок он 
называется алгоритмом обратного распространения ошиб- 


ки (backpropagation). Краткое резюме проделанной работы: 


— для узла последнего уровня 


б; = о;(1 о;)(%; о;); 


— для внутреннего узла сети 


5; = —0; (1 = oj) 25 бкуузк; 
Outputs(j) 
— после предварительного вычисления вспомогательных 
переменных ё; для всех узлов 


Дум; =. —nőjXij . 


Получающийся алгоритм представлен на рис. 3.9. На вход 
алгоритму, кроме указанных на рис. 3.9 параметров, нужно так- 
же подавать в каком-нибудь формате структуру сети. На прак- 
тике очень хорошие результаты показывают сети достаточно 
простой структуры, состоящие всего лишь из двух уровней ней- 
ронов — скрытого уровня (hidden units) и нейронов-выходов 
(output units); каждый вход сети соединён со всеми скрытыми 
нейронами, а результат работы каждого скрытого нейрона по- 
даётся на вход каждому из нейронов-выходов. В таком случае 
достаточно подавать на вход число нейронов скрытого уровня. 


$ 3.8. Реализация нейронной сети на Дауа 


В этом параграфе мы рассмотрим пример реализации алго- 
ритма обратного распространения ошибки на языке Java. Hay- 
нём со вспомогательного класса Регсерёгоп; этот класс созда- 
ёт и поддерживает перцептрон с произвольным числом весов, а 
также умеет его случайно инициализировать. Сигмоид-функция 
здесь вычисляется в функции getOutput (). 
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BackPropagation(n, {x,t} 4—1 МОМВЕВ _ОЕ _ЗТЕРЗ) 
1. Инициализировать {wij j маленькими случай- 
ными значениями. 
2. Повторить NUMBER ОЕ STEPS раз: 
а) Для всех d от 1 до т: 
(1) Подать {ха} на вход сети и подсчитать 
выходы о; каждого узла. 
(1) Для всех k € Outputs 


ôk = ок(1 — ок) (к — ок). 


(ш) Для каждого уровня 1, начиная с пред- 


последнего: 

(А) Для каждого узла j уровня l вычис- 
лить 

5; == 0;(1 = oj) У Wjkôk- 


kEChildren(j) 
(iv) Для каждого ребра сети {ij} 
Wij = Wij + nõjXij. 


3. Выдать значения Wij. 


Рис. 3.9. Алгоритм обратного распространения ошибки 


Листинг 3.6. Нейронная сеть на Java: класс Perceptron 


class Регсерфгоп { 

private double[] weights; 

public Perceptron(int inputCount) { 
weights = new double[inputCount] ; 
for (int i = 0; i < weights.length; i++) { 

weights[i] = Math.random(); 

} 

} 


public int getInputCount() { 
return weights .length; 


} 


public double getWeight (int i) { 
return weights [1]; 


} 
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void setWeight(int i, double value) { 
weights[i] = value; 


} 


public double getOutput (double[] input) { 
double sum = 0; 
for (int i = 0; i < input.length; i++) { 
sum += weights[i] * input [1]; 
} 
return 1.0 / (1.0 + Math.exp(-sum)); 


Основной класс программы — класс NeuralNetwork, B KO- 
тором происходят все основные операции с нейронной сетью; в 
частности, этот класс реализует обучение сети на заданных те- 
стовых примерах и подсчёт результатов работы сети. 


Листинг 3.7. Нейронная сеть на Java: класс NeuralNetwork 


public class NeuralNetwork { 
// перцептроны 
private final Регсерїгоп[][] регсз; 
// константа обучения 
private final double eta = 0.15; 


/ жж 
ж Создаёт нейронную сеть с заданным количеством 
ж входов и выходов; сеть может быть произвольной 
* глубины. 
ж @рагат perceptronNumber число перцептронов на уровне 
ж Срагаш inputCount число входов 
*/ 
public Меига1Мефмотк (іп [] perceptronNumber, 
int inputCount) { 
if (perceptronNumber.length == 0) { 
throw new IllegalArgumentException( 
"wrong number of layers"); 
} 
if (inputCount <= 0) { 
throw new IllegalArgumentException( 
"wrong number of inputs"); 
} 
for (int i = 0; і < perceptronNumber.length; i++) { 
if (perceptronNumber[i] <= 0) { 
throw new IllegalArgumentException( 
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} 


"wrong number of perceptrons in а layer"); 


percs = new Perceptron[perceptronNumber .length] [] ; 


for 


} 


/ жж 


(int і = 0; і < percs.length; i++) { 
регсз[1] = new Perceptron[perceptronNumber [1]1; 
int num = (і == 0) ? 
inputCount : регсз[1 - 1].length; 
for (int j = 0; j < percs[i].length; j++) { 
percs [11 [3] = new Perceptron (пит); 


} 


* Обучает сеть по заданному набору тестовых примеров. 
ж @param number0fSteps количество шагов 

ж @рагаш inputs входы тестовых примеров 

* @рагаш answers верные значения выходов 


*/ 


public void train(int number0fSteps, double[][] inputs, 


double[][] answers) { 


if (inputs.length != answers.length) { 


for 


for 


for 


private 


throw new IllegalArgumentException( 
"no. of inputs does not match no. of answers"); 


(int i = 0; i < inputs.length; i++) { 
if (inputs[i].length != 
percs [0] [0] .getInputCount()) { 
throw new IllegalArgumentException( 
"wrong number of inputs"); 


} 


(int i = 0; i < answers.length; i++) { 
if (answers[i].length != 
регсѕ [percs.length - 1].length) { 
throw new IllegalArgumentException( 
"wrong number of answers"); 


} 


(int і = 0; і < number0fSteps; i++) { 
for (int j = 0; j < inputs.length; j++) { 
train(inputs[j], answers[j]); 


} 


void train(double[] inputs, double[] answers) { 
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double[] П outputs = calculate0utputs (inputs); 
final List<Double> deltas = new ArrayList<Double>(); 
final List<Double> previousDeltas = 
new ArrayList<Double>(); 
for (int i = percs.length - 1; i >= 0; i--) { 
for (int j = 0; j < percs[i].length; j++) { 
// подсчёт delta 
double delta; 
final double output = outputs [1] [1]; 
if (i == percs.length - 1) { 


delta = answers[j] - output; 
} else { 
delta = 0; 


for (int k = 0; 
k < percs[i + 1].length; k++) { 
delta += previousDeltas.get(k) * 
percs[i + 1] [k] .getWeight (j); 
} 
} 
delta *= output * (1 - output); 
deltas .add(delta); 
// изменение весов 
for (int k = 0; 
k < percs [i] [j] .getInputCount(); k++) { 
final double in = (і == 0) ? inputs [К] 
: outputs[i - 1] [k]; 


percs[i] [j] .setWeight(k, 
percs [i] [3] .getWeight(k) + 
eta * delta * in); 
} 
} 
previousDeltas .clear(); 
previousDeltas .addAl1l(deltas); 
deltas.clear(); 


} 


private double[] 1 calculate0Qutputs (double[] inputs) { 
final double[] [] result = new double [регсз .length] [] ; 
for (int i = 0; i < percs.length; i++) { 
result[i] = new double [регсѕ [1] .1епе+Ь]; 
for (int j = 0; j < percs[i].length; j++) { 
final double[] in = (i == 0) ? 
inputs : result[i - 1]; 
result [1] [j] = percs[i] [j] .getOutput (їп); 
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return result; 


} 


/ жж 
ж Вычисление выхода сети по заданному входу 
ж @param inputs входные значения 
ж @return network выходные значения 
*/ 
public double[] getOutput (double[] inputs) { 
if (inputs.length != percs [0] [0] .getInputCount()) { 
throw new IllegalArgumentException(" 
wrong number of inputs"); 
} 
return calculate0utputs (inputs) [percs.length - 1]; 


Последний, собственно запускаемый класс Main демонстри- 
рует, как использовать класс NeuralNetwork. Мы специально 
приводим в коде много реальных примеров того, как можно 
протестировать нейронную сеть; если вы когла-нибуль будете 
реализовывать нейронную сеть самостоятельно, то мы рекомен- 
дуем вам присмотреться к этим примерам и убедиться, что ваша 
сеть тоже адекватно обрабатывает простейшие тесты. 


Листинг 3.8. Нейронная сеть на Java: класс Мат 


public class Main { 


private final static int NUMBER_OF_STEPS = 10000; 
public static void main(String[] args) { 
testConstant(); 
testAnd(); 
testBigFunction(); 
testRatio(); 
testSum(); 
testProduct О); 
} 


// обучение константы 
private static void testConstant() { 
double[] [] inputs = {{1}}; 
double[] П answers = {{1}}; 
NeuralNetwork network = 
new NeuralNetwork (new int[]{1}, 1); 
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network.train(NUMBER_OF_STEPS, inputs, answers); 
System.out.println("Function: 1"); 
for (int i = 0; i < inputs.length; i++) { 
System. out .println("answer: " + апзмегз [1] [0] + 
";\t result: "+network.get0utput (inputs [1]) [0]); 
} 
System.out.println(); 
} 


// обучение конъюнкции 
private static void testAnd() { 
double[] [] inputs = {{0, 0}, {0, 1}, {1, 0}, {1, 1}}; 
double[] [] answers = {{0}, {0}, {0}, {1}}; 
NeuralNetwork network = 
new NeuralNetwork (new int[]{2, 3, 1}, 2); 
network.train(NUMBER_OF_STEPS, inputs, answers); 
System.out.println("Function: x1 and x2"); 
for (int i = 0; i < inputs.length; i++) { 
System. out .println("answer: " + answers[i] [0] + 
";\t result: "+network.get0utput (inputs [1]) [0]); 
} 
System.out.println(); 
} 


// обучение булевской функции (х1 and x2) or x3 
private static void testBigFunction() { 
double[] [] inputs = {{0, 0, 0}, {0, 0, 1}, 
40, 1, О}, +0, 1, 1}, 
41, 0, 0$}, 1, 0, 1}, 
{1, 1, 0}, 41, 1, 13$; 
double[] П answers = {40}, {1}, 
{0}, {1}, 
{0}, {1}, 
{1}, {1}}; 
NeuralNetwork network = 
new NeuralNetwork (new int[]{2, 3, 1}, 3); 
network.train(NUMBER_OF_STEPS, inputs, answers); 
System.out.println("Function: (x1 and x2) or x3"); 
for (int i = 0; i < inputs.length; i++) { 
System. out .println("answer: " + answers[i] [0] + 
";\t result: "+network.get0utput (inputs [1]) [0]); 
} 
System.out.println(); 
} 


// обучение функции обращения числа 
private static void testRatio() { 


double[] [] inputs = {{1}, {2}, {3}, {4}, {5}}; 
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double[] [] answers = 
{41.0}, {0.5}, {0.33}, {0.25}, {0.2}}; 
NeuralNetwork network = 
new NeuralNetwork (new int[]{1, 5, 1}, 1); 
network.train(10 * NUMBER_OF_STEPS, inputs, answers); 
System.out .println("Function: 1/х"); 
for (int i = 0; i < inputs.length; i++) { 
System. out .println("answer: " + answers[i] [0] + 
";\t result: "+network.get0Output (inputs [i]) [0]); 
} 
System.out.println(); 
} 


// обучение функции суммирования двух аргументов 
private static void testSum() { 
double[] 0 inputs = {{0.1, 0.0}, {0.2, 0.1}, 
{0.3, 0.4}, {0.5, 0.5}, {0.7, 0.1}}; 
double[] [] answers = 
{{0.1}, {0.3}, {0.7}, {1.0}, {0.8}}; 
NeuralNetwork network = 
new NeuralNetwork (new int[]{2, 3, 1}, 2); 
network.train(10 * NUMBER_OF_STEPS, inputs, answers); 
System.out .println("Function: хі + x2"); 
for (int i = 0; i < inputs.length; i++) { 
System. out .println("answer: " + answers[i] [0] + 
";\t result: "+network.get0Output (inputs [i]) [0]); 
} 
System.out.println(); 
} 


// обучение функции произведения двух аргументов 
private static void testProduct() { 
double[] [] inputs = {{0.1, 0.0}, {0.2, 0.1}, 
{0.3, 0.4}, {0.5, 0.5}, {0.7, 0.1}}; 
double[] [] answers = 
{{0.0}, {0.02}, {0.12}, {0.25}, {0.07}}; 
NeuralNetwork network = 
new NeuralNetwork (new int[]{2, 5, 1}, 2); 
network.train(10*NUMBER_OF_STEPS, inputs, answers); 
System.out .println("Function: хі ж x2"); 
for (int i = 0; i < inputs.length; i++) { 
System. out .println("answer: " + answers[i] [0] + 
";\t result: "+network.get0utput (inputs [1]) [0]); 
} 
System.out.println(); 
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$ 3.9. Заключение 


В этой главе мы обсудили отдельные перцептроны, нейрон- 
ные сети и обучение их параметров. Конечно, мы лишь слегка 
коснулись всего разнообразия методов, подходов и применений, 
которые нейронные сети накопили за свою долгую историю. 

Одно очень интересное развитие идеи нейронных сетей — ca- 
моорганизующиеся обучающиеся системы, которые получаются, 
если объединить нейроны в двумерную решётку, а не просто рас- 
положить их в линейном порядке послойно. К таким системам 
относятся сети Хопфилда и карты Кохонена. 

Самоорганизующиеся карты Кохонена решают любопытную 
и важную задачу: они проецируют многомерные данные в про- 
странство низшей размерности (обычно размерности два, чтобы 
человек мог в полной мере насладиться результатом). Карта Ко- 
хонена является решёткой, состоящей из нейронов (чем больше, 
тем лучше); она сначала строится по размерности входных дан- 
ных, а затем каждый тестовый пример начинает влиять на бли- 
жайшие к нему нейроны, модифицируя их «под себя». А сами 
нейроны начинают модифицировать друг друга. В результате 
получается, что многомерные кластеры схлопываются в двумер- 
ные области, но между этими двумерными областями всё ещё 
сохраняются весьма плавные переходы; процесс успешно схо- 
дится [64, 89, 90, 134]. 

А сети Хопфилда и того интереснее: они реализуют ассоци- 
ативную память, в которой сеть (по форме она опять представ- 
ляет собой двумерную решётку) «запоминает» несколько жела- 
емых состояний-ассоциаций (они становятся локальными мини- 
мумами энергии сети) и затем сходится к одному из них (или к 
другому минимуму) из любого начального состояния. Таким об- 
разом становится возможным моделировать процессы ассоциа- 
тивного вспоминания, когда ассоциаций несколько, и всплывает 
самая близкая из них [67, 134]. 

Теория нейронных сетей, конечно, гораздо шире; здесь мы 
лишь поверхностно коснулись самых её азов. Читателю, жела- 
ющему ознакомиться с ней подробнее, мы рекомендуем [64,134], 
а пока приглашаем в слелующую главу, в которой речь пойдёт 
о генетических алгоритмах. 


Глава 4 


Генетические алгоритмы 


Если дарвинизм в том виде, в каком он вышел из- 
под пера Дарвина, находился в противоречии с иде- 
алистическим мировоззрением, то развитие матери- 
алистического учения ещё более углубляло это про- 
тиворечие. Поэтому реакционные биологи сделали 
всё от них зависящее, чтобы выбросить из дарви- 
низма его материалистические элементы. Отдель- 
ные голоса прогрессивных биологов, вроде К. А. Ти- 
мирязева, тонули в дружном хоре антидарвинистов 
из лагеря реакционных биологов всего мира. В по- 
следарвиновский период подавляющая часть био- 
логов мира, вместо дальнейшего развития учения 
Дарвина, делали всё, чтобы опошлить дарвинизм, 
улушить его научную основу. Наиболее ярким оли- 
цетворением такого опошления дарвинизма явля- 
ются учения Вейсмана, Менделя, Моргана, осново- 
положников современной генетики. 


Из речи на сессии ВАСХНИЛ 1948 г. [172] 
T. A. Лысенко 


Винни-Пух и Кристофер Робин очень любили играть B «Пустя- 
ки»!. Суть игры проста: мальчик и медвежонок выбирали себе по 
палочке и бросали их с моста в реку, а потом переходили на другую 


1Гениальный перевод Заходера — от слова «Poohsticks». 
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сторону моста и смотрели, чья палочка быстрее выплывет. Маль- 
чик обычно выигрывал, но однажды Винни-Пух, прочитав книгу 
«Почему вы проигрываете в пустяки», решил как следует потрени- 
роваться и научиться-таки обыгрывать Кристофера Робина. 

И работа закипела. Единственный элемент игры, который игро- 
ки контролируют, — форма палочек. Мудрый Пух решил, что прове- 
сти гидродинамические расчёты течения и математически вычис- 
лить оптимальную форму — это не для медвежонка, у которого в 
голове опилки. Оставалось действовать методом проб и ошибок. 

Винни вырезал себе кучу палочек и стал проводить эксперимен- 
ты. Для этого он брал по две палочки, бросал их в реку и смотрел, 
которая из них выплывет раньше. Так он отсеял половину пало- 
чек. Затем Пух подумал, что надо, наверное, попробовать и другие 
формы палочек — но ведь эти уже такие замечательные, они по- 
бедили своих оппонентов! Пух посмотрел на две палочки из побе- 
дительниц и увидел на одной из них оч-чень любопытный сучок, 
а на другой — весьма подозрительную выемку. Винни решил сде- 
лать просто: вырезал себе новую палочку, которую сам снабдил и 
сучком, и выемкой. Так же он поступил и с другими интересными 
особенностями, поначалу попадавшимися случайно. Кроме того, в 
процессе вылавливания палочек некоторые из них слегка повреди- 
лись — где-то отлетел кусочек коры, а где-то палочка и просто 
сломалась пополам. Но Пух решил быть честным и давать шанс 
даже в таких случаях. 

Неделя прошла в напряжённой работе. Пух вырезал палочки, 
бросал их в реку, сравнивал, подправлял, менял и снова вырезал... 
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И когда в очередное воскресенье Кристофер Робин и Винни стали 
играть в пустяки, мальчик просто опешил: Винни поднял с земли 
ветку и быстрыми, уверенными движениями вырезал из неё нечто 
совершенно несусветное, напоминавшее то ли запутавшегося в соб- 
ственных щупальцах маленького осьминога, то ли китайские иг- 
рушки слоновой кости — резной шар в резном шаре в резном шаре, 
и никакого клея, из единого цельного куска. Творение медвежонка 
побило рекорд, державшийся с предыдущей весны, когда две неде- 
ли подряд лил дождь и река была куда быстрее, чем сейчас. 
Чтобы обыграть Кристофера Робина, медвежонок пользовался 
самым настоящим генетическим алгоритмом, с кроссовером и му- 
тациями. А отбор Пух проводил турнирным методом. О том, как это 
применять в более серьёзном контексте, мы сейчас и поговорим. 


§ 4.1. Введение 


Предыдущая глава была посвящена искусственным нейрон- 
ным сетям. В основе этих сетей, как мы уже обсуждали, ле- 
жит структура человеческого мозга: исследователи решили её 
скопировать (хотя бы приблизительно) и натолкнулись на на- 
стоящую золотую жилу. Результаты до сих пор применяются в 
самых разнообразных областях искусственного интеллекта, от 
компьютерных игр до распознавания текстов. 

Но это не единственный случай, когда идеи алгоритмов ма- 
шинного обучения были скопированы с природы. В этой главе 
речь пойдёт о генетических алгоритмахл [44,112,168] — аппа- 
рате, списанном с идей эволюции, высказанных ещё Чарльзом 
Дарвином!. 


1Чарльз Дарвин (Charles Darwin, 1809-1882) — английский натуралист, 
заложивший основы теории эволюции. Во время своего знаменитого круго- 
светного путешествия на «Вигле» (заметим в скобках, что Дарвин жестоко 
страдал от морской болезни) он собрал огромное количество биологических 
и палеонтологических данных и, что главное, сумел обобщить их в единую 
теорию эволюции, которую и опубликовал в книге «Происхождение видов 
путём естественного отбора, или сохранение благоприятствуемых пород в 
борьбе за жизнь» (1859). Говоря в терминах Томаса Куна, Дарвин вместе со 
своим тёзкой Лайелем несёт ответственность за научную революцию ХІХ 
века — переход от картины стабильного, созданного раз и навсегда мира 
к миру эволюционирующему, постоянно изменяющемуся, находящемуся в 
динамическом равновесии. 
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Создание 
популяции 


Размножение Мутации 


Рис. 4.1. Общая схема генетического алгоритма 


Как известно, основная идея дарвиновской эволюции заклю- 
чается в естественном отборе: наименее приспособленные Op- 
ганизмы умирают раньше и в больших количествах, наиболее 
приспособленные выживают и дают потомство. Их потомство 
уже оказывается в среднем более приспособленным к окружа- 
ющей среде, но среди них опять выделяются наиболее приспо- 
собленные особи, и так далее. 

В генетическом алгоритме происходит абсолютно то же са- 
мое. Есть некоторое пространство гипотез, из которых мы долж- 
ны выбрать лучшую. Есть функция приспособленности Fitness 
(её ещё называют goodness of fit), которая определяет, насколько 
хорошо тот или иной организм приспособлен к «окружающей 
среде». Есть набор генетических операций, при помощи кото- 
рых на свет появляются новые особи. И, наконец, есть некото- 
рое целевое значение Ріїпеѕѕ ах, к которому мы стремимся — 
как только мы его достигнем, работу алгоритма можно будет 
прекратить!. На рис. 4.1 изображена общая схема генетическо- 
го алгоритма. Рассмотрим её подробнее. 


§ 4.2. Схема генетического алгоритма в деталях 


1. Инициализация. Как говорил кот Матроскин, прежде 
чем продать что-нибудь ненужное, нужно купить что- 
нибудь ненужное.? Прежде чем отбросить часть попу- 
ляции, не выдержавшую естественного отбора, нужно её 


'Разумеется, можно предложить и другие условия остановки: запускать 
алгоритм на определённое число поколений, например. 
2Не стоит забывать о том, что Матроскин после этого добавлял: «а у нас 
енег нет»; генетические операции, в том числе операцию инициализации 
' ' ' 
нужно реализовывать эффективно. 
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откуда-то породить. А перед первым шагом нужно со- 
здать некую начальную популяцию; даже если она ока- 
жется совершенно неконкурентоспособной, генетический 
алгоритм всё равно достаточно быстро переведёт её в 
жизнеспособную популяцию. Таким образом, на первом 
шаге обычно просто рассматривают случайно порождён- 
ных особей; достаточно, чтобы они соответствовали фор- 
мату особей популяции, и на них можно было подсчитать 
функцию Fitness. Итогом первого шага является популя- 
ция H, состоящая из М особей. 


Отбор. На этапе отбора нужно из всей популяции вы- 
брать некоторую её долю, которая останется «в живых» 
на этом этапе эволюции. Есть разные способы проводить 
отбор — о них мы подробно поговорим в $ 4.5, а пока упо- 
мянем очевидное: вероятность выживания особи h € H 
должна зависеть от значения функции приспособленно- 
сти Fitness(h). Сама доля выживших S обычно является 
параметром генетического алгоритма, и её задают зара- 
нее. По итогам отбора из М особей популяции H должны 
остаться SN особей, которые войдут в итоговую популя- 
цию H’. Прочие, увы, не выживут. 


. Размножение. Размножение в генетических алгорит- 
мах обычно половое — чтобы произвести потомка, нуж- 
но обычно двое родителей, хотя иногла бывает и боль- 
ше. Размножение в разных алгоритмах определяется по- 
разному — оно может зависеть от представления дан- 
ных. Главное требование к размножению — чтобы пото- 
мок или потомки имели возможность унаследовать чер- 
ты обоих родителей, «смешав» их каким-либо достаточ- 
но разумным способом. 

В $ 4.3 мы подробно рассмотрим разные варианты 
операции размножения на битовых строках. А вообще 
говоря, для этапа размножения нужно выбрать случай- 
ным образом о пар особей из Н и провести с ними 
размножение, получив по два потомка от каждой пары 
(если размножение определено так, чтобы давать одного 
потомка, нужно выбрать (1 — $) М пар), а затем добавить 
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этих потомков в (1. В результате H’ будет состоять из 
М особей. Этот процесс проиллюстрирован на рис. 4.2. 

Почему особи для размножения обычно выбираются 
из всей популяции H, а не только из выживших на пер- 
вом шаге элементов H’? Дело в том, что главный бич 
многих генетических алгоритмов — недостаток разнооб- 
разия (diversity) в особях. Достаточно быстро выделя- 
ется один-единственный генотип, который представляет 
собой локальный максимум, а затем все элементы попу- 
ляции проигрывают ему отбор, и вся популяция «забива- 
ется» копиями этой особи. Есть разные способы борьбы 
с таким нежелательным эффектом; один из них — выбор 
для размножения не самых приспособленных, но вообще 
всех особей. 


4. Мутации. К мутациям относится всё то же самое, что и 
к размножению: есть некоторая доля мутантов тп, явля- 
ющаяся параметром генетического алгоритма. На шаге 
применения мутаций нужно выбрать из популяции MN 
особей, а затем каждую из них изменить в соответствии 
с некоторыми заранее определёнными операциями мута- 

ции. 
О том, какими могут быть генетические операции на прак- 

тике, мы поговорим в следующем параграфе. 


5 4.3. Генетические операции 


Для начала давайте предположим, что элементы популяции 
уже зашифрованы в виде битовых строк (о том, как это сделать, 
мы поговорим в $ 4.4). Как известно, с битовыми строками мож- 
но делать практически всё, что угодно. Строки легко разрезать 
на части, комбинируя затем эти части, легко менять полностью 
или частично, легко заменять в них отдельные биты. Давайте 
рассмотрим, как на строках битов работают стандартные гене- 
тические операции. 


Может показаться, что столько пар в популяции и вовсе нету, но обычно 
в генетических алгоритмах пары выбирают из всей популяции, не отказы- 
вая уже размножившимся особям в еще одном шансе. 
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(1-s)N/2 пар 


Размножение 


Рис. 4.2. Схема отбора на одном шаге 


С инициализацией всё понятно: порождать случайные би- 
товые строки несложно.! Для отбора конкретная форма пред- 
ставления данных не очень важна: достаточно уметь вычислять 
функцию приспособленности Fitness. Таким образом, остаются 
размножение и мутации. 


Ох, обманываем мы вас... сложно это, действительно сложно. Псев- 
дослучайные генераторы — область уже довольно хорошо изученная, но 
алгоритмы там совсем не простые. Да и в ней, как и вообще во всей крип- 
тографии, нет ни одного безусловно доказанного утверждения [6, 51-53, 80]. 
Но программист может не задумываться о теории, скрытой за используе- 
мым интерфейсом, и для программиста это действительно легко: достаточ- 
но инициализировать генератор да вызвать функцию random (или как там 
она в вашем языке программирования называется). 
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При размножении особь должна унаследовать черты обоих 
предков. На битовых строках это можно реализовать достаточно 
естественным путём: собрать итоговую строку из частей строк- 
родителей. Такая операция называется кроссовером (crossover). 
Чтобы сделать кроссовер двух строк, нужно выбрать опреде- 
лённую маску, а затем в соответствии с этой маской выбрать те 
или иные биты родителей. 


ОПРЕДЕЛЕНИЕ 4.1. Результатом кроссовера с битовой MaC- 
KOÜ Mı... Mn из двух битовых строк одинаковой длины х1...Хи 
иу1...уи является строка 21...2и, где 


х, если пи = 1, 
Zi = 
у, если m; = 0. 


В зависимости от того, как выбирается маска, различают 
несколько видов кроссовера. 


1. Одноточечный кроссовер (single-point crossover). Про- 
стейший вид кроссовера; в нём случайно выбирается од- 
на позиция в строке, и маска состоит из единиц левее 
этой позиции и нулей — правее (те. левее выбранной 
позиции потомок совпадает с первым родителем, а пра- 
вее — со вторым). Например: 

Исходные строки Маска Результат 
1001101011, 0010101100 1111100000 1001101100 

2. Двутточечныхй кроссовер (double-point crossover). То 
же самое, что и в предыдущем случае, но случайно выби- 
раются две позиции, и между этими двумя позициями бе- 
рутся биты одного из родителей, а вне выбранных пози- 
ций — другого. Если по каким-то причинам желательно, 
чтобы в потомке битов родителей было поровну, можно 
выбирать только одну позицию, а затем отсчитывать от 
неё ровно половину общей длины строки (возвращаясь в 
начало, если достигнут конец строки). Например: 

Исходные строки Маска Результат 
1001101011, 0010101100 0001111100 0011101000 

3. Однородный кроссовер (uniform crossover). Здесь маска 

выбирается случайным образом, равномерно. Например: 
Исходные строки Маска Результат 
1001101011, 0010101100 0110100110 0000101010 
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|00107 01100 | оп 


10011 ‘01011 


1000101111 


Рис. 4.3. Виды кроссовера. Сверху вниз — од- 
ноточечный кроссовер, двухточечный кроссовер, 
однородный кроссовер 


На рис. 4.3 проиллюстрированы все эти виды кроссовера. 

Итак, мы рассмотрели различные виды кроссовера на би- 
товых строках. Осталось понять, какими могут быть мутации. 
Наиболее распространённая мутация — это, конечно, инверти- 
рование случайного бита строки. Её уже достаточно для многих 
приложений. Для того чтобы определить другие типы мутаций, 
нужно располагать более подробными сведениями о структу- 
ре предметной области. Мы приведём пример более специфич- 
ной мутации в следующем параграфе, а пока отметим, что даже 
обычное инвертирование бита уже является очень мощным ин- 
струментом. 


$ 4.4. Представление данных 


В предыдущем параграфе мы предполагали, что элементы 
популяции генетического алгоритма — это строки битов. Дей- 
ствительно, в таком случае все генетические операции легко 
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Идёт дождь 
да Нет 
Соперник в 
турнирной Матч проходит 
таблице 
Ниже Выше Дома В гостях 


Рис. 4.4. Дерево принятия решений для игр «Зенита» 


описываются и применяются, давая разумные результаты. Тео- 
ретически этого вполне достаточно: понятно, что любую, сколь 
угодно сложную структуру можно отобразить в слова алфавита 
из двух символов. Но как это сделать на практике? 

Давайте вернёмся к задаче классификации из примера 1.1. 
Пусть результаты игр «Зенита» находятся в зависимости от че- 
тырёх параметров (см. Главу 1, где это описано более подроб- 
но). Тогда классификация, представленная в виде дерева, может 
быть записана в виде набора гипотез, соответствующих листьям 
дерева (точнее говоря, путям от корня к каждому из листьев). 
Например, крайняя правая ветка дерева с рис. 4.4 представляет 
собой гипотезу 


(Дождь = Нет) Л (Играет = В гостях) = (Победа = 0). 


Как закодировать гипотезу такого рода в виде строки битов? 
Первая мысль — просто выделить по одному биту на каждый 
(бинарный) атрибут и на целевую функцию. Например, в приме- 
ре с играми «Зенита» четыре атрибута — турнирное положение 
соперника, место проведения матча, игра лидеров и погода, и 
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строка 00101 соответствовала бы гипотезе 


(Соперник = Ниже) Л (Играет = В гостях) 


Л (Лидеры = На месте) Л (Дождь = Нет) = (Победа = Да). 


Это кодирование имеет ряд достоинств. Во-первых, оно весь- 
ма эффективно. Во-вторых, что также способствует успеху гене- 
тического алгоритма, все строки имеют одинаковую длину. На- 
конец, каждая строка заданной длины имеет смысл (т.е. описы- 
вает реальную гипотезу) — это важно для успешного размноже- 
ния, когда строки начнут случайным образом перемешиваться. 
Однако его недостатки также видны невооружённым взглядом. 
Как представить гипотезу, в которой не все значения атрибутов 
специфицированы, а, наоборот, от некоторых из них ничего не 
зависит? Если это невозможно (а в нашем текущем представ- 
лении это невозможно), то любое дерево придётся «разворачи- 
вать» до полного набора гипотез (говоря языком логики выска- 
зываний, любую дизъюнктивную нормальную форму придёт- 
ся дополнять до совершенной), что явно неэффективно. Можно 
было бы представлять гипотезы с атрибутами без фиксирован- 
ных значений строками меньшей длины, но тогда было бы непо- 
нятно, какие атрибуты заданы, а какие — нет. 

В данном случае общепринятым решением возникшей про- 
блемы будет следующая конструкция. Для каждого атрибута 
нужно выделить столько битов, сколько у него возможных зна- 
чений (мы до сих пор рассматривали только бинарные атрибу- 
ты, но ничто не помешает рассмотреть и атрибуты с ббльшим 
числом значений). Ноль в той или иной позиции означает, что 
данное значение не встречается в посылке правила, а единица — 
что встречается. В такой нотации, если все биты, соответству- 
ющие значениям данного атрибута, равны 1, это означает, что 
значение его (атрибута) не играет никакой роли для примене- 
ния этого правила. Для значения функции мы оставим один 
бит — правила, где целевая функция не определена или раз- 
решено любое её значение, лишены смысла. Таким образом, в 
случае примера с играми «Зенита» четыре бинарных атрибу- 
та дадут восемь бит посылки плюс один бит значения целевой 
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функции. Например, строка 
011011111 


эквивалентна правилу 
(Соперник = Выше) Л (Играет = В гостях) = (Победа = Да). 


У этой системы кодирования осталось только одно тонкое 
место: неясно, что делать, если в результате кроссовера или му- 
тации в гипотезе получится набор из символов 00. Такая гипоте- 
за не может быть применена ни разу: её условия соответствуют 
пустому множеству примеров. Здесь есть два пути. Первый — 
просто запретить появление таких гипотез: повторять кроссо- 
вер или мутацию до тех пор, пока результат не будет разумным. 
Второй — оставлять такие гипотезы в популяции, но присваи- 
вать им нулевое значение функции Fitness; тогда эти гипотезы 
наверняка будут «выполоты» на следующем шаге отбора. Оба 
подхода имеют право на существование; позволим себе рекомен- 
довать второй подход как более идейный: отбраковка гипотез 
должна производиться посредством естественного отбора, а не 
искусственных ограничений. 

В $ 4.3 мы обещали привести пример более специфичной 
мутации, зависящей от представления данных. В случае задачи 
классификации весьма успешной мутацией оказывается удале- 
ние из посылки правила случайно выбранного атрибута (замена 
строки, соответствующей этому атрибуту, на строку из единиц). 
Такая мутация соответствует обобщению полученных гипотез и 
зачастую приводит к хорошим результатам. 

Впрочем, пока что это всё ещё не совсем то, что нужно для 
решения задачи. Ведь мы до сих пор описывали отлельные пра- 
вила, т.е. отлельные ветки дерева принятия решений. Но одна 
гипотеза — это не одна ветка, а несколько (гипотеза соответ- 
ствует целому дереву). 

Как закодировать несколько правил? Здесь, к счастью, ответ 
прост: при фиксированном наборе атрибутов все правила будут 
иметь постоянную длину, равную суммарному количеству воз- 
можных значений атрибутов плюс один бит на значение целевой 
функции (или больше, если целевая функция может принимать 
больше двух значений). Поэтому можно просто записывать пра- 
вила подряд — никакой многозначности это не внесёт. 
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Гораздо более серьёзные трудности возникают от того, что в 
разных деревьях разное число веток и, следовательно, в разных 
гипотезах будет разное число правил. 


Как же делать кроссовер со строками переменной длины? 
Нам нужно не только суметь скрестить две строки длиной lın 
и [оп каждая, где п — длина правила, а |; — число правил в каж- 
дой гипотезе, но и получить в результате строку длиной м — 
будет неприятно получить гипотезу, в которой дробное число 
правил. Причём желательно, чтобы это 1 выбиралось более или 
менее случайно из промежутка от 1 до И + 15, а не всегда рав- 
нялось, скажем, шах{11,1>}. 


Одно из возможных решений таково: будем использовать 
лвухточечный кроссовер так, чтобы сохранять постоянное pac- 
стояние до краёв правил. Тогда при замене участка первой ги- 
потезы на участок второй, хотя эти участки могут быть разной 
длины, их длина по модулю п будет постоянной. Этот принцип 
проще всего объяснить на примере. 


ПРИМЕР 4.1. Кроссовер на строках переменной длины 

Предположим, что в генетическом алгоритме, в котором нужно 
выполнить кроссовер на строках переменной длины, участвуют пра- 
вила длины 5, и на очередном этапе алгоритм случайно выбрал две 
точки из первой гипотезы: 


0[0101 110]10. 


Тогда во второй гипотезе нужно выбирать такие точки, чтобы рассто- 
яние от левой точки до левого края правила и от правой точки до 
правого края правила были теми же. Например, в правиле длины 15 
могут быть варианты: 


ТОТ 01010 01110 1[1011 010]10 01110 
1101101010 01110 11011 0[10]10 01110 
11011 011010 011110 11011 01010 011110 


Теперь кроссовер будет порождать корректные гипотезы: 
Исходные строки Результат 
0[0101 110]10 01010 
1[10]11 01010 01110 10101 11011 01010 01110 
Этот вид кроссовера проиллюстрирован на рис. 4.5. 
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Рис. 4.5. Кроссовер на строках переменной длины 


5 4.5. Отбор 


Мы уже рассмотрели все элементы типичного генетического 
алгоритма на примере задачи классификации, кроме одного — 
собственно естественного отбора. Волее того, мы даже не опре- 
делили функцию приспособленности Fitness. В условиях отбора 
гипотез при имеющемся фиксированном наборе тестовых при- 
меров мы будем определять эту функцию слелующим образом: 


Correct(h) ) т 


Кыны СЕЛТ 
itness(h) [рые 


где Correct(h) — число примеров, верно расклассифицирован- 
ных гипотезой h, TotalExamples — общее число примеров. Отме- 
тим, что такая функция приспособленности прекрасно справля- 
ется с проблемой строк, не соответствующих никаким коррект- 
ным гипотезам — они не смогут классифицировать ни одного 
примера, и их приспособленность будет равна нулю. 

Как же теперь выбрать наиболее приспособленные особи? 
Нам нужно отобрать sN особей из популяции численности М. 
Не забудем то, о чём мы уже упоминали в $ 4.2: главная бе- 
да генетических алгоритмов — недостаточная гибкость, которая 
приводит к тому, что популяция становится слишком однород- 
ной и не может выбраться из локального максимума. Поэтому 
просто отбирать верхние sN особей по функции Fitness — не 
самая хорошая идея. 

В реальных приложениях для отбора обычно используют 
один из двух наиболее популярных методов. Первый из них — 
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Genetic(N,p,s,m,Fitness,Fitnessmax) 
1. Создать N случайных гипотез H = {В1,... Им}. 
2. Аля каждой h € H вычислить Fitness(h). 
3. Пока тахһеу Fitness(h) < Fitnessmax: 

а) H'= 0. 

6) Случайно выбрать sN гипотез из H и доба- 
вить их в Н’. При этом вероятность выбрать 
гипотезу h; € Н равна 

Fitness(h;) 


Eii Fitness(h;) | 


Pr(hi) = 


z 1— 
в) Случайно выбрать = пар гипотез из H 


с теми же вероятностями. Для каждой пары 
(hi,hj) запустить операцию кроссовера и доба- 
вить её результат в H’. 

г) Равномерно выбрать MN случайных гипотез 
из H’ ив каждой из них инвертировать CAY- 
чайный бит. 

Aa H:=H. 

е) Для каждой h € H вычислить Fitness(h). 

4. Выдать argmaxpenFitness(h). 


Рис. 4.6. Пример генетического алгоритма 


метод рулетки (roulette wheel selection). В этом методе у каж- 
дой гипотезы с ненулевой функцией приспособленности есть 
шанс быть выбранной, и вероятность её выживания пропорци- 
ональна её функции приспособленности: у каждой гипотезы h; 
вероятность быть выбранной 


Fitness(h;) 


Pr(hi) = ; 
у 5G Fitness(h;) 


При этом одна и та же особь может быть выбрана несколько 
раз; алгоритм просто проводит выбор с заданной вероятностью 
в течение нужного числа итераций (sN). Этот метод — один 
из классических, но на практике используется не так уж часто. 
Во-первых, такая выборка достаточно дорога вычислительно, 
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а во-вторых, опять же, этому методу зачастую не хватает раз- 
нообразия в получающихся гипотезах. Вторую проблему можно 
отчасти решить, перейдя от метода рулетки к ранговому MEMO- 
ду. В ранговом методе гипотезы (особи) сначала сортируются по 
приспособленности, а затем используется такая же выборка, что 
и в обычном методе рулетки, но вероятность быть выбранной у 
гипотезы прямо пропорциональна не абсолютному значению её 
приспособленности, а её рангу. Даже если гипотеза далеко OT- 
рывается от своих конкурентов по значению Fitness, ранговый 
метод всего лишь поставит её на первое место, девальвируя раз- 
ницу в абсолютных значениях. 

Другой часто используемый подход к отбору — турнирный 
метод (tournament selection). Сначала равномерно выберем две 
гипотезы. Затем с некоторой фиксированной вероятностью р 
(обычно, конечно, р > 4) выживает более приспособленная, C 
вероятностью (1 — р) — менее приспособленная гипотеза. 

Давайте попробуем объединить всё то, что мы до сих пор 
изучили, в единую схему алгоритма. На рис. 4.6 изображён при- 
мер генетического алгоритма. В нём мы избрали метод рулетки 
в качестве метода естественного отбора, а инвертирование слу- 
чайного бита — в качестве единственного типа мутаций. 


$ 4.6. Дарвин, Ламарк и Болдуин 


Как известно, Дарвин был не единственным учёным, пред- 
ложившим схему эволюции. Жан Батист Ламарк! в своей книге 
«Философия зоологии», опубликованной за полстолетия до Дар- 
вина, уже высказывал основные идеи эволюционного развития 
видов. При жизни Ламарка его мысли не получили поддержки 


1Жан Батист Пьер Антуан де Моне, шевалье де Ламарк (Jean-Baptiste 
Pierre Antoine de Monet, Chevalier de Lamarck, 1744-1829) — французский 
биолог, создатель первой теории биологической эволюции. Ламарки издав- 
на служили в армии, и Жан Батист не стал исключением: он проявил 
недюжинную храбрость во время Семилетней войны. Однако когда один 
из сослуживцев, играя, приподнял его за голову (похоже, армия везде оди- 
накова...), у него случилось воспаление в лимфатических узлах шеи, ина 
этом военная карьера Ламарка закончилась. Главный его труд — «Филосо- 
фия зоологии» (1809); там он и изложил свои эволюционные идеи. Кстати, 
в другой работе, «Гидрогеологии» (1802), Ламарк придумал впоследствии 
прижившийся термин «биология». 
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среди научного сообщества. Вспомнили о нём только после вы- 
хода в свет книги Дарвина, когла реального научного значения 
его идеи уже не имели — все известные факты указывали на то, 
что прав был Дарвин, а не Ламарк. 

Основной идеей Ламарка было то, что организмы изменяют- 
ся под воздействием окружающей среды и условий их жизнеде- 
ятельности, причём, в отличие от дарвиновской теории, особи 
могут изменяться в течение своей жизни, а не только на генети- 
ческом уровне. Грубо говоря, киплинговский слонёнок даже без 
помощи крокодила действительно мог бы за свою жизнь чуть- 
чуть вытянуть хобот, это бы передалось его детям, те вытянули 
бы хоботы ещё чуть-чуть, и рано или поздно они бы эволюци- 
онировали в современных слонов. У Дарвина же длина хобота 
слонёнка задана генетически и в течение жизни не меняется, 
зато слоны с длинными хоботами чаще выживают, привлекают, 
разумеется, повышенное внимание слоних и в результате начи- 
нают доминировать среди потомства. 

Хотя теория Ламарка не выдерживает биологической крити- 
ки!, кто сказал, что она совсем бесполезна для искусственного 
интеллекта? Фактически, все программы машинного обучения, 
которые мы рассматривали в предылущих главах — это ламар- 
кианские виды, которые обучаются по ходу жизни, а не только 
посредством естественного отбора. И в рамках общей парадигмы 
генетических алгоритмов мы тоже можем совместить естествен- 
ный отбор (его идею Ламарк, кстати, тоже выдвинул — выжи- 
вают те слонята, которые сумели вытянуть хобот максимально 
далеко) с обучением «оп-1һе-йу». 

Для этого нужно будет в качестве гипотез (особей популя- 
ции) использовать какой-нибудь из аппаратов машинного обу- 
чения, и обучать каждое их поколение на тестовых примерах. 
Обычно в качестве такого аппарата применяют нейронные се- 
ти: помимо прочего, их ещё и легко обучить «чуть-чуть», так, 


1 Стоит, правда, отметить, что эволюция по Ламарку бывала и общепри- 
знанной, а критике подвергались совершенно другие люди. Трофим Денисо- 
вич Лысенко прямо так и говорил в речи, которая уже цитировалась в эпи- 
графе: «Мы, представители советского мичуринского направления, утвер- 
ждаем, что наследование свойств, приобретаемых растениями и животными 
в процессе их развития, возможно и необходимо». 
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чтобы «генетический код» не потерялся от обучения; а, напри- 
мер, деревья принятия решений после работы алгоритма 103 
все были бы на одно лицо. 

Другая мысль, также пришедшая в искусственный интел- 
лект из генетики — так называемый эффект Болдуина. Он 
связан со способностью организма обучаться в течение жиз- 
ни. Как повлияет такая способность на эволюцию? Она смо- 
жет «сгладить» зависимость приспособленности от генотипа: 
чем лучше обучается особь, тем меньше она зависит от генотипа. 
Например, человек в процессе своей жизни обучается стольким 
разным вещам, что в итоге от генотипа конкретного человека 
зависит в его жизни очень мало, и совершенно не понятно, ка- 
кие мутации могут оказаться для человека благоприятными и 
быть закреплёнными естественным отбором — по всей видимо- 
сти, естественный отбор в его дарвиновском смысле для чело- 
века сильно замедлился. 

Болдуиновский эффект не является, как может показать- 
ся, развитием ламаркианских идей. Приобретённые в результате 
обучения навыки не передаются по наследству. Слонята учат- 
ся вытягивать хобот, чтобы достать еду, но от этого их хоботы 
не становятся длиннее. Однако обучение делает их более при- 
способленными к окружающей среде и даёт популяции слонов 
время для того, чтобы развить у себя длинный хобот сугубо 
дарвиновскими методами [123]. 

Применительно к искусственному интеллекту эффект Бол- 
луина выражается в том, что в естественном отборе участвуют 
обучающиеся особи, причём их способность к обучению также 
является предметом естественного отбора. 


ПРИМЕР 4.2. Генетический алгоритм с эффектом Болдуина 

Опишем конкретную (впрочем, опишем мы её в достаточно общем 
виде, без элементов программной реализации) схему построения гене- 
тического алгоритма (основных его операций) на нейронных сетях, в 
основном следуя [151]. 

Каждый элемент популяции — нейронная сеть глубины 2 с М вхо- 
дами, М нейронами на скрытом уровне и М нейронами на выходе. 


1На самом деле его независимо и практически одновременно — в 1896 
году — открыли Болдуин (Baldwin), Морган (Morgan) и Осборн (Osborn). 
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Таким образом, у такой особи образуются (М + 1)М + (М + ТМ re- 
нов, соответствующих весам нейронной сети («плюс единицы» обра- 
зуются потому, что у каждого нейрона есть ещё вес Wọ, добавляющий 
константу к взвешенной сумме входов — см. Главу 3). Более того, у 
каждой особи есть ещё столько же бинарных генов (генов пластич- 
ности), которые определяют, может ли соответствующий вес изме- 
няться в процессе обучения или нет. 

Каждая итерация алгоритма состоит из двух частей. В течение 
первой части имеющиеся особи обучаются на тестовых примерах; при 
этом обучение учитывает также гены пластичности: для веса w обу- 
чение происходит по формуле 


dE, (w) 
л» =-пр У 2509), 
УЕМ 


где п — скорость обучения, У — тестовые примеры, Е, — функция 
ошибки, а р — это как раз соответствующий весу W ген пластично- 
сти. Таким образом, если этот ген равен 1, то вес может изменяться в 
процессе обучения, а если он равен 0, то вес на протяжении обучения 
останется постоянным. 

На втором этапе обученные нейронные сети участвуют в генетиче- 
ских операциях. Эти операции производятся с функцией приспособ- 
ленности 

1 М —1 
Fitness = 1.0 — N2N У J (Ош, + — Target, 1), 
УЕМ i=0 


где Target, ; — значение целевой функции на 1-м выходе сети в V-M 
тестовом примере, а Out, i — реальный выход 1-го выходного нейрона 
сети. 

Отбор и размножение в [151] велись очень простым способом: наи- 
худшая особь популяции заменялась копией наилучшей особи. Можно 
было бы заменять несколько худших на несколько лучших или всё- 
таки использовать более традиционные методы; с другой стороны, 
большая вычислительная стоимость каждой итерации (нужно обу- 
чить каждую особь) приводит к тому, что в популяции должно быть 
не так уж много особей. Возможно, с учётом этого обстоятельства 
выбор авторов [151] действительно оптимален. 

Главная изменчивость в этом примере достигается за счёт мута- 
ций. Мутации бывают двух видов. Мутации весов нейронной сети из- 
меняют случайно выбранный вес на случайное значение, равномерно 
выбранное из заданного интервала [-4,4]. Мутации генов пластично- 
сти — обычное инвертирование случайного бита. 
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На практике оказывается, что ламаркианский подход даёт 
неплохие сети достаточно быстро, в то время как болдуиновский 
подход позволяет получить сети более высокого качества, но 
медленнее. Если у задачи нет большого количества локальных 
минимумов, и результат можно получить относительно быст- 
ро, то лучше использовать ламаркианскую стратегию; в общем 
же случае с задачей лучше справляется подход, основанный на 
эффекте Волдуина [28]. 


$ 4.7. Генетические алгоритмы на деревьях 


Ло сих пор мы рассматривали генетические алгоритмы, в 
которых элементами популяции являлись битовые строки. Од- 
нако это отнюдь не единственное возможное кодирование, для 
которого можно ввести разумные операции кроссовера и мута- 
ций. Так, например, сейчас мы рассмотрим, как определять ге- 
нетические операции на деревьях, и убедимся, что это вполне 
возможно и только немногим сложнее, чем генетические опе- 
рации на строках битов. В следующих параграфах мы разовьём 
идею генетического программирования — основного примера ге- 
нетических алгоритмах на деревьях, а в этом параграфе огра- 
ничимся более общей ситуацией. 

Как мы уже знаем, для того чтобы определить генетический 
алгоритм, нужно уметь выполнять инициализацию, кроссовер и 
мутации, а также вычислять функцию приспособленности OCO- 
бей. С функцией приспособленности мы сейчас иметь дело не 
будем — она всё равно зависит в первую очередь от конкрет- 
ной задачи и предметной области. Зато подробно рассмотрим 
все остальные операции, считая, что особями в популяции вы- 
ступают деревья. 

Инициализация обычно сводится к тому, чтобы случайным 
образом породить дерево. Есть разные способы порождать слу- 
чайные деревья. Обычно главная сложность заключается не в 
том, чтобы породить дерево хоть как-нибудь (с этим проблем 
нет), а в том, чтобы вероятностное распределение на порож- 
лённых деревьях было равномерным, те., в частности, чтобы у 
любого дерева был шанс стать результатом алгоритма порожде- 
ния. Эти задачи подробно рассмотрены в книге [4], а работа [3] 
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содержит описание (достаточно несложного) линейного алго- 
ритма порождения деревьев, который позволяет приблизиться 
к равномерному распределению. 

Как правило, эффективные алгоритмы порождения дере- 
вьев (не забудем, что на практике могут потребоваться разные 
леревья: бинарные, тернарные, произвольные, леса из деревьев 
того или иного типа и т.д.) работают следующим образом: со- 
здаётся некий язык и устанавливается взаимно однозначное со- 
ответствие между словами этого языка и деревьями требуемо- 
го типа. Таким образом, проблема порождения дерева сводится 
к проблеме выбора случайного слова из этого языка — а для 
этого достаточно набрасывать случайным образом буквы соот- 
ветствующего алфавита. Работа [3] именно по такому принципу 
и построена. Однако для наших целей можно не углубляться 
в эти тонкости; достаточно даже самого тривиального алгорит- 
ма. Единственная мелочь, которую стоит учитывать — тот факт, 
что деревья у нас будут с метками, и метка вершины будет опре- 
делять число потомков у этой вершины. 

Поэтому генерировать деревья будем следующим образом: 
предположим, что имеется некоторый набор меток 


L=LoUL1U...U Lgs, 


где в каждом из множеств |; находятся метки, соответствующие 
числу потомков у вершин, в которых они должны стоять. Затем, 
начав с одной вершины, выберем ей случайным образом метку 
l € Ги добавим соответствующее метке количество ещё не MOME- 
ченных потомков. А затем будем итерировать по непомеченным 
потомкам до тех пор, пока таковые не закончатся. 

У этого алгоритма только один недостаток: «таковые» не 
закончатся никогда. Если только нульарных (терминальных) 
вершин не значительно больше, чем остальных, алгоритм будет 
постоянно производить новые и новые уровни дерева. 

Справиться с этим просто: достаточно ограничить глубину 
дерева. Иными словами, на некоторой максимальной глубине 
dmax мы будем выбирать метки вершин не из всего L, а из Lo. 
Тогда дерево будет гарантированно ограниченным. В приложе- 
нии к генетическому программированию ограничение глубины, 
как правило, является вполне разумным: может существовать 
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априорное ограничение глубины, или решение с той или иной 
глубиной может быть уже известно, а хочется найти решение с 
меньшей глубиной (то есть де-факто более быстрый алгоритм). 

Кроссовер на деревьях принципиально очень похож на крос- 
совер на строках. Как и в том случае, нужно выбрать случайную 
позицию (в данном случае — случайный узел). Затем нужно раз- 
бить каждое из двух участвующих деревьев на две части: часть 
с корнем в выбранном узле и дерево, полученное из исходного 
улалением этого узла, а затем обменяться поддеревьями. 

Мутации, как обычно, — самая сложная, но вместе с тем 
и самая плодотворная для дальнейших поисков часть конструк- 
ции. Успех генетических алгоритмов, как это часто бывает, зави- 
сит от мутаций. В случае, когла речь идёт об алгоритмах на де- 
ревьях, простейшей мутацией, соответствующей изменению OA- 
ного бита в битовой строке, было бы изменение одной метки в 
одном узле дерева. Беда в том, что с изменением метки может 
измениться число потомков, которое должно быть у этого узла, 
или их характер. 

Основных вариантов два. Первый — изменять ту или иную 
метку только на метку с тем же числом потомков. Но если, на- 
пример, в языке есть только одна метка с тремя потомками, 
то она уже никогда не мутирует. Другой, чаще употребляемый, 
подход состоит в том, чтобы при мутации наращивать новое слу- 
чайное дерево из мутировавшего узла. При этом мутации ста- 
новятся достаточно радикальными — если, например, мутирует 
корень дерева (вот уж в самом буквальном смысле радикальная 
мутация!), то дерево просто становится совершенно другим. 


$ 4.8. Генетическое программирование 


Генетическое программирование — реализация давней меч- 
ты всех программистов: заставить компьютер самого себя про- 
граммировать. О том, как решать задачи поиска оптимальных 
программ и алгоритмов методами, основанными на дарвинов- 
ском естественном отборе, учёные задумались достаточно давно; 
во всяком случае, уже Алан Тьюринг в своём программном эссе 
«Умные машины» («Intelligent Machines») писал (мы цитируем 
Тьюринга по [98]): 
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Есть и генетический, или эволюционный, поиск, 
при котором ищется комбинация генов, а кри- 
терием является уровень выживаемости. Удиви- 
тельный успех такого поиска до некоторой степе- 
ни подтверждает, что интеллектуальная деятель- 
ность состоит в основном из различных видов по- 
иска». 


А в статье, вышедшей в 1950 году, Тьюринг уже напрямую 
закладывает основы генетического программирования: 


Мы не можем ожидать, что найдём хорошую ма- 
шину с первой попытки. Нужно поэксперименти- 
ровать с обучением одной такой машины и по- 
смотреть, как хорошо она обучается. Затем мож- 
но попробовать другую и выяснить, лучше она 
или хуже. Есть очевидная связь между этим про- 
цессом и эволюцией, ведь можно отождествить 
структуру машины с генетическим материалом, 
изменения в ней с мутациями, а естественный от- 
бор — с суждением экспериментатора. 


После Тьюринга эту мысль надолго оставили. В 1975 году 
Джон Холланд! в своей знаменитой книге «Адаптация в есте- 
ственных и искусственных системах» [66] вновь вернулся к этой 
мысли, но она требовала слишком больших вычислительных 
ресурсов, в то время недоступных. Уже в девяностые годы про- 
шлого века одним из основных исследователей, работающих в 
этой области, стал Джон Коза (John Koza), для которого re- 
нетическое программирование стало делом всей научной жиз- 
ни [94—98]. 

Ажиотаж, возникший вокруг этого направления, основан от- 
нюдь не на пустом месте. У генетического программирования 
уже есть успехи, которые прекрасно укладываются в «статут» 
искусственного интеллекта: при помощи генетического програм- 
мирования компьютер уже смог придумать несколько новых, 
более эффективных алгоритмов решения известных задач. По 
итогам работ Джона Козы и его соавторов были даже поданы 


1 Джон Холланд (John Holland, р. 1929) — американский математик. Он 
считается «отцом» генетических алгоритмов. 
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две патентные заявки на изобретения, совершённые компьюте- 
ром!! 

Итак, генетическое программирование. Его суть в том, что 
элементами популяции становятся не битовые строки, а про- 
граммы, обычно представленные в виде деревьев. В узлах де- 
ревьев находятся функции, а в их потомках — аргументы этих 
функций. Здесь нам очень пригодится предыдущий параграф, 
ведь мы находимся точно в той ситуации, которая была там 
описана: арность функций строго задаёт число потомков у вер- 
шин дерева. Отметим, что представление данных в генетиче- 
ском программировании очень похоже на один из функциональ- 
ных языков программирования. Недаром Джон Коза избрал для 
иллюстраций в своей первой книге язык LISP даже для cob- 
ственно реализации генетического программирования, не толь- 
ко для представления программ. Мы подробнее поговорим об 
этом в $ 4.10, а пока ограничимся более простым примером, на 
котором продемонстрируем основные идеи генетического про- 
граммирования. 

Предположим, что мы хотим, чтобы полученная программа 
вычисляла некоторую функцию. Пусть для простоты это будет 
многочлен от одной переменной х? — 1. Опишем конструкцию 
генетического алгоритма, который должен будет найти эту про- 
грамму. 

Прежде всего нужно описать множество функций, из кото- 
рых будет состоять программа. Пусть мы заранее знаем, что на- 
ша цель — вычислить некую арифметическую функцию; тогда 
мы можем изначально ограничиться арифметическими функ- 
циями +, —, є, /, %. В качестве терминальных символов, они 
же константы и переменные, они же нульарные функции, будут 
выступать переменная х и численные константы от —5 до 5. На 
рис. 4.7 изображены возможные элементы начальной популяции 
программ с такими функциями (ограничимся деревьями глуби- 
ной не более трёх), а рис. 4.8 показывает, как происходит после- 
довательное «выращивание» случайного элемента популяции. 
Как только достигнута предельная глубина дерева, случайный 
выбор на последнем уровне происходит только из терминаль- 
ных символов. 


1Подробности — на http://www .genetic-programming. огр. 
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б SNO) Г 


Рис. 4.7. Возможные элементы популяции: 
а) x/3 +5; 6) 0; в) х8; г) х/3+5-+2х 


Кроссовер на деревьях мы будем проводить так, как ука- 
зывали в предыдущем параграфе: в участвующих в кроссовере 
деревьях мы будем выбирать два узла, а затем менять места- 
ми поддеревья, «растущие» из этих узлов. В качестве мутаций 
примем схему, которая выбирает случайный узел, а затем «вы- 
ращивает» из него новое случайное поддерево. 

Остаётся только один вопрос — как же оценивать особей по- 
пуляции? Что принять за функцию приспособленности? 

Поскольку мы хотим научиться вычислять функцию, AO- 
статочно логичным выглядит принять за меру качества наше- 
го приближения этой функции разницу между ней и целевой 
функцией. Роль такой разницы может сыграть, например, ин- 
теграл модуля разности между нашей функцией и целевой; а 
чтобы интеграл этот не был всегда бесконечным, нам придётся 
либо ограничиться каким-нибудь отрезком, либо ввести доста- 
точно быстро убывающие веса (ядра интегралов), чтобы все ин- 
тегралы сходились. Мы для простоты возьмём отрезок [—5;5] и 
будем минимизировать интеграл по нему. 
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Рис. 4.8. Случайное порождение дерева программы 


Для кроссовера на каждом шаге мы будем случайным 06- 
разом выбирать из четырёх особей в популяции две пары. В 
качестве отбора будем брать лучшие четыре «программы» из 
получающихся; мутации будем применять случайным образом 
к одному из четырёх потомков. 

Теперь можно применить схему генетического алгоритма с 
учётом всего вышесказанного и всего описанного в $ 4.7. Наша 
цель — программа, вычисляющая функцию х? — 1. Начнём с 
функций, уже представленных на рис. 4.7: 


х/3 +5, 0, x8, 7х/3 +5. 


Первый цикл алгоритма показан на рис. 4.9. На первом шаге 
будем скрещивать первую особь с четвёртой, а вторую — с тре- 
тьей. Выберем случайные ветви, которые кроссовер будет 3a- 
менять друг на друга (они показаны сверху чёрным, а остаток 
дерева — серым). 

В результате скрещивания получатся особи, изображённые 
на рис. 4.9 во второй строке. Обратите внимание, что третья 
особь в результате скрещивания с нулём случайно оказалась 
тождественно равной нулю, хотя она всё ещё представляет собой 
достаточно большое дерево. Здесь можно было бы «пропагиро- 
вать», передать ноль снизу вверх (мы же знаем, что Ожх = 0), но 
можно и оставить дерево как есть — вдруг оно не умрёт на эта- 
пе отбора и потом ещё пригодится. Мы для простоты (чтобы не 
определять формально правила «пропагации нулей» и прочих 
упрощений) будем оставлять деревья в покое. 
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Затем применим мутацию к одному из потомков; мутация 
состоит в выращивании случайного дерева и заменой на него 
случайной ветви дерева. В результате у нас (с учётом началь- 
ных) получились восемь особей, реализующих следующие во- 
семь функций: 


х/3+5, 0, x8, 5+7x/3, 
2x+5, xf, 0, 5—2х/3. 


На этапе отбора мы для каждой из этих функций f(x) подсчита- 
ем интеграл модуля разности между f(x) и целевой функцией: 


Fitness(f) -| |+ 2 +1 | dx. 


Мы получим следующие (приближённые численные) значе- 
ния функции Fitness: 


Fitness(x/3 +5) = 62.7976, 
Fitness(0) = 76, 
ЕИпезз(х8) = 43395.44, 
Fitness(5 + 7х/3) = 76.5912, 
Fitness(2x + 2) = 72.7207, 
Fitness(x) = 1176.67, 
Fitness(5 — 2х/3) = 63.6189. 


В результате отбора выживут особи, изображённые в ниж- 
ней строке рис. 4.9 (мы случайным образом выбрали один из 
двух тождественных нулей). Пока их функции приспособленно- 
сти далеки от идеала, и на протяжении следующих поколений 
генетический алгоритм должен будет уменьшить её до нуля. А 
мы на этом оставим теоретические примеры и перейдём к прак- 
тическим. 


$ 4.9. Генетическое программирование на практике 


В этом параграфе мы рассмотрим программу, которая реа- 
лизует генетическое программирование для решения конкрет- 
ной задачи. Задача будет во многом игрушечная, немногим бо- 
лее сложная, чем задача из предыдущего примера: мы будем 
вычислять норму матрицы 2 х 2. Точнее говоря, квадрат нормы 
матрицы — сумму квадратов её элементов. 
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Результат первого шого: 


Рис. 4.9. Первый шаг генетического программирования 


Мы приведём полную, работающую программу и разъясним, 
как работают её отдельные части. Конечно, программы для ре- 
шения возникающих на практике проблем могут быть (и скорее 
всего будут) сложнее, но общая схема достаточно чётко видна 
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даже на таком небольшом примере, как вычисление нормы мат- 
риц 2 x 2. Программу будем реализовывать на языке Java; AM- 
рективы ітрогі в листингах мы будем для краткости опускать. 

Во-первых, нам понадобится генератор тестовых примеров: 
разумеется, мы не горим желанием задавать вручную много- 
численные матрицы и их нормы. В этом классе мы просто ге- 
нерируем случайную матрицу, подсчитываем её норму, а затем 
добавляем вычисленную норму как целевую функцию для этого 
тестового примера. 


Листинг 4.1. Генетическое программирование: SampleMaker 


public class Ѕашр1еМакег { 
public static void MakeSamples (double[] 1 matrices, 
double[] results) { 


assert (matrices != null); 
assert (results != null); 
assert (matrices.length == results.length); 


for (int i = 0; i < matrices.length; i++) { 
if (matrices[i] == null) { 
matrices[i] = new double [4]; 
} 
for (int j = 0; j < 4; j++) { 
matrices [1] [j] = Math.random(); 
} 
matrices [1] [3] += 1.4 ж Math.random(); 
if (matrices [1] [3] > 1) 4 
matrices [i] [3] = 1; 
} 
results[i] = 0; 
results[i] = matrices [1] [0] 
matrices [1] [1] 
matrices [1] [2] 
matrices [i] [3] 


matrices [1] [0] + 
matrices [i] [1] + 
matrices [i] [2] + 
matrices [i] [3]; 


Во-вторых, мы должны реализовать класс, подсчитываю- 
щий функцию приспособленности. При инициализации такому 
классу передаётся количество случайных тестовых примеров, 
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которые он должен порождать; примеры он генерирует при вы- 
зове процедуры ирдафеЗатр1ез (), а затем подсчитывает приспо- 
собленность по формуле 


А 1 

Fitness T} J 537 

где 6; — модуль разности настоящей нормы тестовой матрицы 
и значения функции, которую вычисляет данная особь (напом- 
ним, что особь — это дерево из арифметических операций). Ес- 
ли же функция настолько плоха, что вызывает деление на ноль 
или какую-нибудь другую ошибку, Fitness принимается равным 
нулю. 

Стоит отметить ещё две особенности. Во-первых, если все 
элементы популяции окажутся с нулевой приспособленностью, 
алгоритм захочет разделить на ноль (их суммарную вероят- 
ность). Чтобы избежать этого, в таком случае мы просто при- 
сваиваем неприспособленным бедолагам хоть какие-нибудь BE- 
роятности. 

Во-вторых, мы хотели бы ограничить общую глубину полу- 
чающегося дерева; поэтому, если дерево в результате размно- 
жения или мутации оказывается слишком глубоким, мы просто 
заменяем его на свежевыращенное случайное дерево (возможно, 
это не оптимальный способ — можно было бы модифицировать 
кроссовер и мутации так, чтобы максимальная глубина не на- 
рушалась, — но мы сейчас не будем этого делать). 


Листинг 4.2. Генетическое программирование: FitnessCalc 


public class FitnessCalc { 
private static final int SIZE = 4; 
private final double[] [] smpMatrices; 
private final double[] smpResults; 
FitnessCalculator (int n) { 
smpMatrices = new double [а] [SIZE] ; 
smpResults = new double [n] ; 
} 
void updateSamples() { 
SampleMaker .MakeSamples (smpMatrices, smpResults); 
} 
double fitness (ТгееМо4е tree) { 
assert (smpMatrices.length == smpResults.length); 
double fitness = 0; 
for (int i = 0; i < smpMatrices.length; i++) { 
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double delta = Math.abs( 
tree.eval(smpMatrices[i])- smpResults [1]); 

fitness += delta; 

} 

if (Double.isNaN(fitness)) fitness = 0; 

else fitness = 1 / (1 + fitness); 

tree.setFitness (fitness); 

return fitness; 


Основным классом программы является класс, при помощи 
которого осуществляется собственно естественный отбор. Труд- 
но пересказать его своими словами так, чтобы всё было понятно 
в деталях, поэтому мы подробно прокомментировали сам код. 


Листинг 4.3. Генетическое программирование: NaturalSelection 


public class NaturalSelection { 
private TreeNode[] popul; 
private final int maxDepth; 
private final FitnessCalc fitnessCalc; 
private final double survRate; 
private final double mutRate; 
private Writer w; 


/жж 
Конструктор класса, реализующего естественный отбор 
рори151=2е -- размер поколения 
mDepth -- ограничение на глубину дерева особи 
nSurvivors -- среднее число выживающих особей 

(в одном раунде естественного отбора) 
nMutants -- среднее число мутирующих особей 


* ж ж ж ж ж 


ж/ 
public NaturalSelection(int рори1512е, int шрер+ћ, 
int nSurvivors, int nMutants) 
throws FileNotFoundException { 
// Экземпляр класса, подсчитывающего fitness 
// Количество тестов, конечно, тоже можно было бы 
// передавать как параметр 
fitnessCalc = new FitnessCalc (50); 
// Доли выживающих и мутирущих особей 
зигуВафе = nSurvivors / (double) populSize; 
mutRate = пбигуітогѕ / (double) рори1512е; 
// В этом массиве хранится текущее поколение 
popul = new ТгееМоде [рору1512е] ; 
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maxDepth = mDepth; 
// Инициализируем популяцию случайными особями 
for (int i = 0; 1 < populSize; i++) 
рори1[1] = 
RandomTreeFactory . сгеа+еТгее (maxDepth) ; 


} 


// Выполняем один раунд естественного отбора 
private boolean doRound() throws IOException { 
// Обновить тестовые примеры 
Ё15пеззСа1с .ирдафебатр1ез 0); 


// Подсчитать Fitness для каждой особи 

for (int i = 0; i < popul.length; i++) { 
fitnessCalc.fitness (рори1[1]); 

} 


// Отсортировать популяцию по приспособленности 
Arrays .sort (popul) ; 

// Вспомогательный аебир-вывод 

printpopul(); 


// У идеальной особи Fitness == 1.0 
// Если нашли такую особь -- выдаём ответ 
if (рори1[рори1.1епрїһ - 1].getFitness() > 0.99) { 
System.out.print("We reached the optimum: "); 
System. out.print ( 
popul [popul.length - 1].toString()); 
return true; 


// Создаём массив интегральных вероятностей и 
// заполняем его так, чтобы разность 
// (probs[i + 1] - ргоЪз [1]) 
// была пропорциональна Fitness (і) 
// С этими вероятностями особи потом 
// будут выбираться для генетических операций. 
double[] probs = new double[popul.length + 1]; 
probs [0] = 0; 
for (int i = 1; i < popul.length + 1; i++) { 

probs[i] = probs[i-1] + 

popul [1-1] .getFitness(); 

} 


// Если все особи никуда He годятся,, нужно тем He 
// менее присвоить им какие-нибудь вероятности. 
if (probs[probs.length - 1] == 0.0) { 

for (int i = 0; i < probs.length; i++) { 
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probs[i] = i; 
} 


// Нормируем 
for (int i = 0; i < probs.length; i++) { 
probs[i] /= 
probs [probs.length - 1]; 
} 


// Создаём массив для записи следующего поколения 
ТгееМо4е[] newpopul = new TreeNode[popul.length] ; 


// Принцип элитизма -- две лучшие особи выживают 
newpopul [popul .length-1] = рори1[рори1.1епр®һ-1]; 
newpopul [popul .length-2] = popul [popul.length-2]; 
int k = 0; 
// Но эти две особи должны быть разными 
for (К = popul.length - 1; К >= 0; К--) { 
if (popul[k] != popul[popul.length-1] && 
popul [К] .getFitness() != 
popul[popul.length-1] .getFitness()) { 
newpopul [popul.length - 2] = popul[k]; 
break; 


} 


// Заполняем "оставшиеся места" B новом поколении 
// результатами генетических операций над особями 
// старого поколения 
for (int i = 0; i < popul.length - 2; i++) { 
// Далее будем случайным образом выбирать 
// генетическую операцию, сравнивая случайное 
// число с вероятностями выживания 
// и мутации особи. 
double гпа\уа1 = Math.random(); 
if (rndVal < survRate) { 
// Операция воспроизведения. 
double randomValue = Math.random(); 
int index = Arrays .binarySearch( 
probs, randomValue); 
if (index < 0) { 


index = -index - 2; 
} else if (index == popul.length) { 
index--; 


} 
// Копируем особь в новое поколение 
newpopul[i] = рори1 [index] ; 


152 Глава 4. Генетические алгоритмы 


newpopul [1] .setOrigin("R"); 
} else if (rndVal < 1 - mutRate) { 
// Кроссовер. 
int 11 = Arrays .binarySearch( 
probs, Math.random()); 
int i2 = 11; 
while (i2 == i1) { 
12 = Arrays .binarySearch( 
probs, Math.random()); 
} 
if (i1 < 0) 4 
11 = -i1 - 2; 
} else if (11 == popul.length) { 
il--; 
} 
if (i2 < 0) { 
i2 = -i2 - 2; 
} else if (i2 == popul.length) { 
12--; 
} 
// Производим кроссовер. 
пеирори1[1] = 
рори1[12] .сгоззоуег (рори1 [11] ); 
newpopul [1] .setOrigin("C"); 
} else { 
// Мутация. 
int index = Аггауз.Ь1пагу5$еагсһ( 
probs, Math.random()); 
if (index < 0) { 


index = -index - 2; 
} else if (index == popul.length) { 
index--; 


} 


// Мутация и запись в новое поколение 
пеирори1[1] = 

рори1 [1п4ех] . гапаотМи+а+іоп (тахрер+ћ) ; 
newpopul [1] .ѕеї0гіріп("М"); 


} 


// Новое поколение сменяет старое 
popul = newpopul; 


// Вместо слишком глубоких деревьев помещаем B 

// новое поколение случайные (мы предполагаем, 

// что искомая особь представляет собой не слишком 
// глубокое дерево). 
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for (int i = 0; i < popul.length; i++) { 
if (popul[i].depth() > maxDepth * 2) { 
popul[i] = ВапаошТтгееЕасфогу . стеафеТгее ( 
maxDepth) ; 
newpopul [1] .setOrigin("N"); 


return false; 


} 


// Процедура тестового вывода 
private void printpopul() throws IOException { 
for (int i = 0; i < popul.length; i++) { 
w.write(popul[i].toString()+" "+ 
popul [1] .getOrigin()+" "+popul[i].depth()+" "+ 
popul [1] .getFitness()+"\n"); 
} 
w.write("--\n"); 


} 


// Процедура, обобщающая doRound() до отбора 
public boolean doSelection(int iterLimit) 
throws IOException { 
int i = 0; 
м = new FileWriter ("output .txt", true); 
while (!doRound()) + 
i++; 
if (i%1000 == 0) { 
System.out.println(i+" generations.\n"); 
} 
if (i > iterLimit) { 
w.close(); 
return false; 
} 
} 
w.close(); 
return true; 


'Теперь, когда все процедуры готовы, осталось реализовать 
лишь не слишком содержательный запуск всех этих процедур. 
Константы из нижеприведённого кода (количество перезапус- 
ков при неудаче, максимальное количество поколений в поиске) 
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взяты с потолка; на практике их пришлось бы подбирать экспе- 
риментально. 


Листинг 4.4. Генетическое программирование: Start 


public class Start { 
public static void main(String[] args) { 
Writer w = null; 
try { 
w = new FileWriter("output.txt", false); 
w.write("*\n"); 
// Провести естественный отбор 
performSelection(); 
} catch (IOException e) { 
e.printStackTrace(); 
} finally { 
try { 
if (w != null) { 
w.close(); 
} 
} catch (IOException e) { 
e.printStackTrace(); 


} 
} 


public static int performSelection() 
throws IOException { 
NaturalSelection selection; 
// Повторяем несколько раз естественный отбор 
// "с нуля", пока не найдем подходящую особь (если 
// совсем не везёт, делаем 40 повторов). 
for (int i = 0; i < 40; i++) { 
// Делаем естественный отбор "c нуля" 
// Лимит поколений - 3000. 
selection = new Мафига15е1ес%1оп (30, 3, 2, 10); 
if (selection.doSelection(3000)) { 
// Нашли подходящую особь. 
break; 


} 
return 0; 


} 


public static void test() { 
TreeNode add = new DivisionTreeNode(); 
NumberTreeNode n1 = new NumberTreeNode(15); 
NumberTreeNode n2 = new NumberTreeNode(5); 
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add.addChild(0, n1); 
add.addChild(1, n2); 


add.toString(); 
System.out.println(); 
Ѕуѕтеш. оце .ргіп+1п (add.eval(null)); 


ТгееМо4е rnd = КапаотТгееЕасїогу.сгеа+еТгее(6); 
rnd.toString(); 
System.out.println(); 


int аП = { 5, 2, 7 }; 

Arrays .sort (а); 

for (int i = 0; i < 3; i++) 
System. out .print(a[i] +" "); 


System.out.println(); 


TreeNode tree1 = ВапдопТгееРасфогу .сгеафеТгее (2); 
tree1.toString(); 
System.out.println(); 


TreeNode +гее2 = tree1.randomMutation(3); 
tree2.randomMutation(3); 
tree2.toString(); 

System.out.println(); 
tree2.getRandomBranch() .toString(); 


System.out.println(); 
tree2.crossover(tree1).toString(); 


В результате своей работы эта программа выдаёт функцию 
наподобие (результат может меняться, ведь многие вычисления 
были случайными) 


Сти] ж m[1]) + ((sar(m[3]) + зах (1710])) + вчг(тп[2]))), 


где mli] обозначают элементы матрицы, а заг — возведение в 
квадрат. 


$ 4.10. Язык программирования LISP 


Как мы уже видели, для того чтобы естественным и клас- 
сическим образом применить генетическое программирование, 
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нужно, чтобы программа записывалась в виде дерева. Разуме- 
ется, при должной изобретательности можно любую программу 
на любом языке программирования представить в виде дерева; 
но для большинства императивных языков это будет не слиш- 
ком естественным представлением — программы там представ- 
ляют собой последовательности команд. 

Зато это вполне естественно для функциональных языков, 
где программы представляют собой деревья вызовов функций 
(как мы и представляли особей популяции в наших предыду- 
щих примерах). Поэтому неудивительно, что знаковым для ге- 
нетического программирования (и вообще для искусственного 
интеллекта) стал язык программирования LISP. В этом mapa- 
графе мы бегло коснёмся основных положений языка LISP. Это 
изложение ни в коей мере не претендует на полноту, и мы BCA- 
чески рекомендуем использовать такие более содержательные 
источники, как [100, 118, 147, 158]. 

LISP — один из старейших среди языков программирова- 
ния, которые используются до сих пор (старше него разве что 
Fortran). Однако основные его идеи до сих пор отнюдь не обще- 
известны среди программистов, даже несмотря на то, что зна- 
комство с ними очень помогает и в программировании на «обыч- 
ных» языках. Если вы уже программировали на LISP, то можете 
смело пропустить этот параграф. 

LISP легко узнать по его синтаксису; основу LISP составля- 
ют списки и, как их разновидность, так называемые ѕ-выраже- 
ния (5-ехргеѕѕіопѕ): список из названия функции и её аргумен- 
тов. То, что в большинстве других языков программирования 
записывается как f (x,y,z), в LISP записывается как (f ху 2). 
Вызовы функции, разумеется, можно вкладывать друг в дру- 
га; собственно, любая функция на LISP и представляет собой 
одно сложно структурированное ѕ-выражение. В LISP также 
присутствуют обычные арифметические операторы и удобные 
функции работы со списками. Вложенность и структура язы- 
ка естественным образом намекает на рекурсию. Вот, например, 
функция вычисления факториала на LISP (обратите внимание 
на синтаксис: условный переход и арифметика выполняются те- 
ми же 5-выражениями): 


(defun factorial (п) 
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(а (<= р 1) 
1 
(ж п (factorial (- n 1))))) 


LISP включает в себя оператор lambda, который может опреде- 
лять функцию «на лету»; например, этот код: 


((1ашраа (х) 
(ж x x) ) 
4) 


выдаст в ответ 16, возведя 4 в квадрат LISP также может mepe- 
давать одним функциям другие функции в качестве параметра; 
это и обеспечивает его гибкость и универсальность. В качестве 
простого примера приведём функцию find, которая позволяет 
в качестве параметра :test: задавать функцию сравнения, а 
затем ищет в заданном списке, пользуясь этой функцией. На- 
пример, код 


(defun МишфегзАтеС1озе (х y) 
(<= (abs (- x y)) 0.1)) 
(find pi '(3.0 3.1 3.2 3.3 3.4 3.5) 
:test #’NumbersAreClose) 


выдаст в качестве результата 3,1 — первое вхождение в список 
числа, менее чем на 0,1 отклоняющегося от л. Здесь defun — 
определение функции; его первый аргумент — имя функции, 
второй — список её аргументов, третий — тело функции. 

Всё это делает LISP удобным и очень мощным языком, а его 
очевидная древовидная структура позволяет удобно применять 
этот язык в качестве основы для генетического программиро- 
вания. Программы на LISP могут получаться весьма компакт- 
ными, что также делает генетическое программирование более 
эффективным: чем меньше размер объекта, тем легче его авто- 
матически найти или породить. 

Хотя это уже в меньшей степени относится к основанному на 
LISP генетическому программированию, сила этого языка про- 
является в том, что код программы для него является такими 
же данными, как и всё остальное; LISP позволяет, в основном 
через определение макросов, быстро и эффективно создавать 
достаточно сложные программы. К сожалению, доказать это 
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утверждение вряд ли получится: нужно достаточно долго раз- 
бираться в LISP и написать несколько программ на нём, чтобы 
перейти к макросам, а мы сейчас всё-таки говорим не столько 
о программировании, сколько об искусственном интеллекте и 
алгоритмической стороне вопроса. Позже, в $ 6.6, мы ещё при- 
ведём пример полноценной программы на LISP, которая будет 
реализовывать один из алгоритмов кластеризации, но и её будет 
недостаточно. Мы можем только порекомендовать читающим 
эту книгу программистам изучить LISP — велущие специали- 
сты соглашаются, что этот язык может вывести программиста 
на новый уровень понимания; см., например, статью Пола Грэ- 
xema «Beating the Averages» [54]. 


§ 4.11. Заключение 


Подводя итог главе O генетических алгоритмах, напомним 
основную идею. Генетические алгоритмы — это не набор кон- 
кретных рецептов для конкретных задач, а философия, метод, 
позволяющий достаточно быстро «выводить» хороших «особей», 
если можно разумно определить операцию «скрещивания». По- 
этому генетические алгоритмы применяются не просто широ- 
ко, а очень широко; они встречаются в сочетании чуть ли не 
с каждым другим аппаратом машинного обучения (здесь по- 
хорошему нужно было бы дать ссылки на такие применения, 
но собрать настолько широкую библиографию — это достойно 
отдельного исследования, ведь, разумеется, ссылками на базо- 
вые работы по генетическому программированию или по идеям 
генетических алгоритмов тут не отделаться). 

В конце главы позволим себе ещё одно небольшое лириче- 
ское отступление. Читатели уже наверняка заметили, что мы 
часто употребляем слова, которые странно видеть в математи- 
ческом тексте: «возможно», «вероятно», «зачастую», «неплохо», 
«относительно быстро» и т.д. Дело в том, что в искусствен- 
ном интеллекте обычно можно чем угодно сделать что угод- 
но. Теоретически никто не мешает генетическим алгоритмом 
«вывести», например, программу, которая обыграет в шахма- 
ты чемпиона мира. Однако на практике этот метод оказывает- 
ся неэффективным. С другой стороны, для своих задач генети- 
ческие алгоритмы оказываются эффективнее других аппаратов 
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машинного обучения (как правило, это касается задач порожде- 
ния программ или схем, как в $ 4.8). Математически доказать 
утверждения вроде «лучше справляются с практическими зада- 
чами» обычно трудно. Приходится высказываться осторожно и 
обтекаемо и при первом же удобном случае проверять такого ро- 
ла утверждения практикой. Но практика вполне может зависеть 
от деталей конкретной инженерной реализации, да и просто от 
конкретных констант и параметров. Задача этой книги — не в 
том, чтобы строго доказать, что тот или иной аппарат машин- 
ного обучения работает лучше всех остальных, а в том, чтобы 
дать читателю некий набор инструментов, box of tools, которые 
читатель сможет применить к своей конкретной задаче. Однако 
заранее, абстрактно, ответить на вопрос о том, что именно луч- 
ше применять, невозможно: у большинства описываемых аппа- 
ратов есть свои достоинства и недостатки. 

В следующей главе мы расскажем, как численно сравни- 
вать гипотезы друг с другом, оценивая их правдоподобие; Teo- 
рия вероятностей, лежащая в основе всего машинного обучения, 
наконец-то станет предметом нашего разговора. 


Глава 5 


Байесовское обучение и классификаторы 


Случай порождает Отклонения от закономерно- 
стей, однако бесконечно велики Шансы, что с те- 
чением Времени эти Отклонения окажутся прене- 
брежимо ничтожными относительно повторяемо- 
сти того Порядка, который естественным образом 
является результатом Божественного Предначерта- 
ния. 


Теория случайностей 
Абрахам де Муавр 


Когда Иа-Иа потерял хвост, все жители Леса очень хотели по- 
мочь ослику отыскать его. 

« Может, хвост Иа-Иа захотел мёда», — вполне логично подумал 
Винни-Пух и решил посмотреть у себя в шкафу. В шкафу стояли 
пустые горшочки, которые Винни уже классифицировал, но хвоста 
не оказалось. Зато среди пустых горшочков оказался один полный... 

Когда к Пуху пришёл Кролик, сытый и довольный медвежонок 
рассказал ему, как он догадался поискать хвост в шкафу. 
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— Хвост? Мёда?! Это совершенно не-ве-ро-ят-но! — отчеканил 
Кролик. 

— Не-ве-ро-ят-но? — повторил Пух. — Что это значит? А если 
бы хвост Иа-Иа оказался у меня в шкафчике с мёдом, это вдруг 
стало бы ве-ро-ят-но, да? 

— Пух, но ведь шансы обнаружить там хвост были ничтожно 
малы! — раздражённо объяснил Кролик. — Конечно, если бы он 
там вдруг оказался... но это же абсолютно невозможно! 

— Зато я нашёл там горшочек с мёдом, — не согласился Пух. — 
А поиски хвоста — это такое сложное дело, что обязательно нужно 
было как следует подкрепиться. 

Так получилось, что медвежонок выдвинул гипотезу: «хвост Иа- 
Иа у меня в шкафу». И решил там его поискать. Однако, с точки 
зрения Кролика, эта гипотеза настолько маловероятна, что дей- 
ствовать в соответствии с ней было глупо; Кролик скорее стал бы 
искать хвост на любимых осликом кустах чертополоха. А Пух, види- 
мо, попутно оценивал вероятность гипотезы «у меня в шкафу най- 
дётся чем подкрепиться», и результат этой оценки оказался весьма 
приятным... 


5 5.1. Введение 


Методы, которые мы до сих пор рассматривали, могли иметь 
успех и без обращения к теории вероятностей. В этой главе мы 
переходим к рассмотрению так называемых байесовскит Me- 
тодов обучения — методов, для которых теория вероятностей 
играет не вспомогательную, а основополагающую роль. 

Сразу отметим, что вероятностные рассуждения в машин- 
ном обучении могут употребляться в двух разных контекстах. 
Первый — когда вероятности или их аналоги реально применя- 
ются алгоритмами машинного обучения для вывода. Например, 
алгоритм ЕМ для кластеризации (см. $ 6.6) поддерживает и пе- 
ресчитывает вероятности принадлежности каждой точки каж- 
дому из кластеров, и результат его работы — это фактически и 
есть эти самые вероятности. 

Второй контекст — когда сам алгоритм или вообще не имеет 
вероятностной природы, или она надёжно скрыта, но при этом 
вероятностные рассуждения используются для анализа работы 
алгоритма. Например, вероятностные методы часто позволяют 
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доказать, что алгоритм находит оптимальную гипотезу или схо- 
длится к ней, то есть работает наилучшим возможным образом 
(см., например, 8 5.5, где мы проанализируем с байесовской точ- 
ки зрения уже знакомые нам по Главе 1 алгоритмы классифи- 
кации). 

Трудно переоценить важность доказательств такого рода. 
Алгоритмы машинного обучения так часто используют всяче- 
ские эвристики и так редко гарантируют результат, что дока- 
зательство того, что алгоритм действительно выдаёт оптималь- 
ный результат или хотя бы сходится к нему — очень важный 
шаг. Дальше неплохо было бы понять, как быстро он к нему 
сходится. Здесь, конечно, вероятностные методы тоже играют 
важнейшую роль, но в этой книге мы не будем приводить при- 
меров подобных доказательств. 


$ 5.2. Теорема Байеса 


Начнём с того, что вкратце напомним собственно теорему 
Байеса. Мы предполагаем, что читатель знает о том, что такое 
вероятность: функция р, заданная на некотором пространстве 
событий (5,„Х) (где S — пространство элементарных событий, а 
X — сигма-алгебра на нём) так, чтобы выполнялись следующие 
условия. 


РТ. p(X) > 0 для любого ХЕХ. 

P2. р($) = 1. 

РЗ. Если не более чем счётное множество событий {Xiker Ta- 
ково, что Х; ПХ; = 0 для всех i Æj, и Xi Е X, |) 1 Xi Е X, 
то 


р Ux = У p(X). 
ЧЕТ ЧЕТ 

При выполнении этих условий тройку (5 ,},р) называют веро- 
ятностным пространством. Подробнее о современном NOHA- 
тии вероятности можно прочесть в [178, 179]; в дальнейшем мы 
не будем пользоваться теорией меры, которая неизбежно сопут- 
ствует серьёзным вероятностным рассуждениям, а ограничимся 
элементарной теорией вероятностей, как правило, на конечном 
множестве событий. 
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Для нас особенный интерес представляют условные веро- 
AMHOCMU, поскольку именно на условных вероятностях, как мы 
вскоре увидим, построен анализ буквально всех аппаратов ма- 
шинного обучения. 


ОПРЕДЕЛЕНИЕ 5.1. Условной вероятностью события Х при 
условии события У c p(Y) > 0 называется величина 
р(ХҮ) 
p(Y) 


Легко видеть, что выполняются следующие свойства услов- 
ных вероятностей: 


p(XIY) = 


p(XIY)=1, ХОҮ, 
p(X1 U X2lY) = р(Хи У) +р(Х>\), Х ПХ, = 0. 

Ограничение р(Ү) > 0 можно снять, если переформулиро- 
вать определение так: условная вероятность X при условии Y — 
это такая величина p(X | Y), что p(X | Ү)р(Ү) = р(ХҮ). В таком 
случае p(X | У) при р(Ү) = 0 не остаётся неопределённой, как в 
определении 5.1, а просто может принимать любое значение (на- 
верное, это ещё одно применение принципа Дунса Скота!: «из 
лжи следует что угодно»). 

Важно заметить, что если зафиксировать множестве А, то 
условная вероятность р(-]А) обладает теми же свойствами на 


Иоанн Дунс Скот (John Duns Scotus, ок. 1266-1308) — философ, теолог 
и логик, родившийся, по одной из версий, в Ирландии, а по другой — в Шот- 
ландии, в городе Дунс. Как и Оккам, он был британцем и францисканцем, 
как и Оккаму, ему пришлось уехать из Франции (правда, по прямо противо- 
положной причине: поддержал папу в борьбе против Филиппа Красивого, 
и Филипп уволил Скота из Парижского Университета) и обосноваться в 
Германии (в Кёльне, где он в конце концов умер и был похоронен). Скот, 
в отличие от Оккама, был реалистом (в смысле противоположности номи- 
нализму), а как теолог проповедовал волюнтаризм (свободу человеческой 
воли). Его главные научные работы относятся к логике, где Скот впервые 
ввёл многие современные логические концепции, в том числе и принцип «из 
лжи следует всё что угодно». Стоит отметить, что последователи Скота бы- 
ли не столь умны, как сам философ — английское слово «dunce» («дурак, 
болван») происходит от имени Duns и изначально относилось к чересчур 
упорным в своих заблуждениях дунсистам. 
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пространстве ($ ПА,Х ПА), что и исходная вероятность р на 
пространстве (S,X). 

Теперь приведём несколько фактов об условных вероятно- 
стях, которые будут постоянно использоваться в дальнейшем. 
Будем говорить, что события Х1,...,Х; образуют разбиение ©, 
если Ui Xi = S, XN Xj = a p(X) > 0, ij Е 1.м, i £j. 

ПРЕДЛОЖЕНИЕ 5.1. 


1. Формула полной вероятности. Если события Хі,...,Х; 
образуют, разбиение $, то 


У) = > _р(ҮХ)р(Х) 
1=1 


В частности, если р(Х) > 0, то 
р(Ү) = р(Ү | Х)р(Х) + р(Ү | Х)р(Х). 
2. Формула умножения вероятностей. Если события Хі, 
Х),...,Х; таковы, что р(Х ПХП... ПХ) > 0, то 
p(X1N...NX NY) = 
= p(X1)p(X2 | X1)p(X3 | X1 N X2)... P(Y IX1N... N х)). 


ДОКАЗАТЕЛЬСТВО. Доказательство всех трёх пунктов пред- 
ставляет собой несложную индукцию. Мы оставим его читателю 
в качестве упражнения (см., например, [178]). 


Центральным для всех наших дальнейших вероятностных 
рассуждений станет одно следствие предложения 5.1. 


ТЕОРЕМА 5.1 (Теорема Байеса). Если события Хі,...,Х 
образуют разбиение S, и р(Ү) > 0, то 
p(Xi)p 15 ) 


РОЧҮ) = у= SPN 


В частности, 

р(Х)р(Ү IX) 
p(Y) 
ДОКАЗАТЕЛЬСТВО. Немедленно следует из формулы пол- 

ной вероятности: р(ХҮ) = р(Х|Ү)р(Ү) =р(МХ)р(Х). 


Р(Х [У) = 
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Формулировка теоремы Вайеса!, как видите, очень проста; 
её математический смысл в том, что теорема Байеса устанавли- 
вает несложное соответствие между р(х|у) и р(уХ). Однако это 
несложное соответствие и методы, на нём основанные, оказыва- 
ются крайне важными для всей математической статистики и 
машинного обучения. 

Мы завершим этот параграф забавным и весьма показатель- 
ным примером, который продемонстрирует, что не всё в форму- 
ле полной вероятности и теореме Байеса так уж интуитивно 
очевидно. 


ПРИМЕР 5.1. Задача о трёх ящиках 

Представьте, что вы играете в азартную телеигру и вдруг получи- 
ли шанс на случайный выигрыш. Перед вами три чёрных ящика, из 
которых приз лежит только в одном (да, жизнь — тяжёлая штука). 

Вы выбираете один из трёх ящиков, после чего ведущий открыва- 
ет один из двух оставшихся (очевидно, он всегда может так сделать) 
и показывает вам, что в нём ничего нет. Вопрос: выгодно ли вам изме- 
нить свой выбор, то есть взять второй, оставшийся закрытым ящик? 

Интуитивно может показаться, что выбор менять бессмысленно, 
ведь ведущий не дал вам никакой информации: вам и так было извест- 
но, что один из оставшихся ящиков пустой. Залайте своим знакомым 
этот вопрос, и вы увидите: многие решат, что менять решение смысла 
нет. Однако давайте попробуем подсчитать это формально. 


1Томас Байес (Thomas Bayes, 1702-1761) — удивительный пример че- 
ловека, который почти не публиковался и был долгое время не очень из- 
вестен, но чьё имя осталось в веках в бесчисленных определениях с при- 
лагательным «байесовский», появившихся в последние полвека. Преуспе- 
вающий пресвитерианский священник за всю жизнь опубликовал только 
два труда: «Благость господня, или попытка доказать, что конечной целью 
божественного провидения и направления является счастье его созданий» 
и анонимно опубликованное «Введение в теорию флюксий, или в защиту 
математиков от нападок автора “Комментатора”», где Байес защищал нью- 
тоновский анализ от критики Беркли. Его работа по теории вероятностей 
вышла уже после смерти, в 1763 году, и в ней Байес ответил на один из во- 
просов, оставленных открытым основателем теории вероятностей де Муав- 
ром (правда, и здесь с именем и приоритетом не всё так очевидно — говорят, 
Николь Саундерсон его опередил [148]). Впрочем, стоит подчеркнуть, что 
теорема Байеса — это для нас несложное следствие очевидных свойств ве- 
роятности; во времена Байеса и де Муавра эти свойства ещё не были столь 
чётко сформулированы, и само понятие вероятности ещё не было толком 
разработано. 
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Рассмотрим случайную величину т (от слова шопеу) с тремя зна- 
чениями, соответствующую шкатулке, B которой лежат деньги. Изна- 
чально у вас не было возможности предпочесть один из ящиков, то 
есть вероятности всех исходов изначально равны: 

1 

р(т = 1) =р(м = 2) =р(м = 3) z 
Для определённости предположим, что вы выбрали шкатулку номер 
один. Рассмотрим новую случайную величину X, соответствующую TO- 
му, какую из двух шкатулок открыл ведущий (у этой величины два 
значения) и предположим для простоты, что если вы угадали пра- 
вильно, он открывает один из двух других ящиков случайным обра- 
зом. Поведение велущего тогла можно описать такой таблицей: 


р(х= т =1) = 1/2, р(х=2т=2)=0, р(х=2т = 3) = 1, 
р(х =Зт = 1) = 1/2, р(х= 3|т = 2) =1, р(х = Зіт = 3) = 0. 


Предположим, что ведущий открыл ящик номер 2 (случай третьего 
ящика ничем не отличается). Вычислим условные вероятности попа- 
дания приза в ящики 1 или 3, используя теорему Байеса: 


р(т = 1)р(х = 21т = 1) _ 
> п р(т)р(х = 21т) 


оо— 
NI= 
+ 


1 
разь pm = 3)р(х = 21т = 3) _ ЕЕ. | | 
У ир(т)р(х = 2т) з°з+з3`0+з311 3 
Иначе говоря, изменить решение в среднем вдвое выгоднее, чем 
не менять его! 

Оставляем читателю в качестве упражнения случай, когда веду- 
щий выбирает открываемый ящик не равновероятно (р(х = 2|m = 1) 

не обязательно равно 1/2). 


«Парадоксальный» ответ примера 5.1 можно, конечно, по- 
нять и интуитивно. Всё дело в том, что два ящика выбирать 
действительно выгоднее, чем один. Если бы вам безо всяких 
открываний предложили изменить решение и взять два остав- 
шихся ящика, вы бы не колеблясь так и поступили. Однако на 
самом деле ведущий предлагает именно это: он делает выбор 
между двумя оставшимися ящиками за вас, и теперь, если приз 
был в одном из них, вы его непременно получите. 
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$ 5.3. Априорные и апостериорные вероятности 


Итак, нашим основным инструментом станет теорема Байе- 

са: 
р(х Лу) = р(хіу)р(у) = plylx)p(x). 
Отсюда следует, что если p(y) = 0, то 
р(у!х)р(х) 
Ру) = — =. 
ply) 

Давайте рассмотрим это выражение подробнее; для успеш- 
ного применения формулы Байеса нам придётся дать имена от- 
дельным её частям и понять, что они означают в философском 
смысле. 

Формула для р(х[у) выражает нашу цель: мы хотим найти 
условную вероятность события х (или, если х и у — случай- 
ные величины, того или иного значения случайной величины 
х) при условии, что событие у произошло (соответственно, при 
данном фиксированном значении случайной величины у). Это 
апостериорная вероятность X — от слов а posteriori, то есть 
вероятность «после опыта», после того, как мы узнали значение 
y. 

Соответственно, априорная (a priori) вероятность — это 3Ha- 
чение вероятности х до того, как мы зафиксировали у. В форму- 
лировке теоремы Байеса присутствует априорная вероятность 
р(х) события х; апостериорная вероятность ей прямо пропорци- 
ональна. 

Ввыражение р(у|х), стоящее в числителе правой части, Ha- 
зывается правдоподобием х при заданном у. Именно поэтому 
гипотезы, которые мы в следующем параграфе назовём макси- 
мальными апостериорными гипотезами, часто называют гипо- 
тезами максимального правдоподобия!. Если быть точным, 
функция правдоподобия — это функция вида faly) = р(х = 
aly). Теорема Байеса утверждает, что апостериорная вероят- 
ность события прямо пропорциональна его правдоподобию. 


1Мы бы и сами использовали тот же термин, но боимся запутать чита- 
теля; дело в том, что основная масса литературы по машинному обучению 
написана на английском языке, и в ней уже устоялся даже не просто термин 
maximal а posteriori, а его аббревиатура МАР. 
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А вот p(y) не имеет своего специального названия, её можно 
назвать маргинальной вероятностью, но это просто означает, 
что она не является условной. Эта вероятность и вовсе играет 
здесь вспомогательную роль. Подсчитать её обычно или совсем 
просто, или совсем сложно, и в любом случае не нужно: доста- 
точно просто подсчитать произведения р(у|х)р(х) для разных 
значений х, а затем вспомнить, что р(х|у) — распределение Be- 
роятностей, а, значит, 


У р(х= ају) = У р(ух = а)р(х= а) = 1. 


Иначе говоря, в теореме Вайеса р(у) просто играет роль нор- 
мировочной константы. Теорему часто прямо в таком виде и 
записывают: 


р(х = ау = b) = ply = bix = а)р(х = а) 
2 aply = ых = a')p(x = а”) 


Завершим мы этот параграф любопытным применением тео- 
ремы Байеса (по неожиданности, на мой взгляд, даже превос- 
ходящим пример 5.1), в котором мы будем решать в точности 
обратную задачу теории вероятностей. 


ПРИМЕР 5.2. Тест с ошибкой 

Обратимся к самой классической области применения статистики 
и байесовского вывода — к медицинской диагностике. Пусть некий 
тест на какую-нибуль болезнь имеет вероятность успеха 95%, причём 
ошибки в нём могут быть в любую сторону, 5% — вероятность как 
позитивной, так и негативной ошибки. Пусть всего болезнь имеется 
у 1% респондентов (отложим на время то, что они разного возраста 
и профессий). И, наконец, пусть некий человек получил позитивный 
результат теста (тест говорит, что он болен). С какой вероятностью 
он действительно болен? 

Если задать этот вопрос достаточно большой группе людей, то, по 
нашим наблюдениям, большая часть присутствующих проголосует за 
то, что человек болен с вероятностью более 80%, и уж точно почти 
все булут уверены, что человек скорее болен, чем нет. Согласны ли 
вы с этой оценкой? 

Обозначим через + результат теста, через 4 — наличие болезни. 
Тогла 


p(d = 1) =р(4 = 1 = 1)p(t = 1) +р(а = 1 = 0)p(t = 0). 
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Используем теорему Байеса: 


{+=1|4=1)р(їч =1 
КОО үс p( | )р( ) Е 
р(а = 1+ = 1)р(+ = 1) +р(а = 1+ = 0)р(+ = 0) 
Е 0,95 х 0,01 
2 0,95 х 0,01 + 0,05 х 0,99 
Вот такой ответ, на первый взгляд парадоксальный: получается, 
что среди имеющих позитивный результат теста со столь высокой сте- 
пенью надёжности реально больны лишь около 16 процентов! 


= 0,16. 


На самом деле этот пример, как и пример 5.1, тоже неслож- 
но интуитивно объяснить. Вероятность ошибки теста впятеро 
больше априорной вероятности наткнуться на больного паци- 
ента. Поэтому ситуация «больной пациент, правильный тест» 
будет встречаться гораздо реже ситуации «здоровый пациент, 
ошибка в тесте». Но практика показывает, что интуиция эта да- 
леко не всегда встречается даже среди людей,прошедших курсы 
теории вероятностей. Надеемся, что наш читатель в такие ло- 
вушки уже не попадётся. 


$ 5.4. Теорема Байеса, данные и гипотезы 


В предыдущих главах мы рассмотрели несколько весьма раз- 
личных алгоритмов машинного обучения. Однако в их структу- 
ре было очень много общего. Это общее мы сейчас выделим и 
поймём, что на самом деле все описанные нами алгоритмы пы- 
тались сделать одно и то же. 

Во-первых, у каждого алгоритма есть некоторое множе- 
ство гипотез, из которых он пытается выбрать наилучшую. 
Например, для алгоритма обучения концептам Find-S (см. $ 2.4) 
множеством гипотез было множество правил вида «из такого- 
то набора атрибутов следует, что целевая функция равна еди- 
нице». У алгоритма 103 (см. $ 1.5) множеством гипотез было 
множество возможных деревьев принятия решений или, что для 
нас сейчас эквивалентно, множество всевозможных дизъюнкций 
гипотез алгоритма Е119-$.' У нейронных сетей множество воз- 
можных гипотез было более богатым — для сетей с линейными 


1 Леревья, конечно, — более экономичный способ записи, чем набор дизъ- 
юнкций, но нам это сейчас не важно. 


§ 5.4. Теорема Байеса, данные и гипотезы 171 


нейронами это было множество линейных форм в пространстве, 
размерность которого зависела от числа входов, а для сетей с 
нелинейными нейронами — множество функций определённо- 
го вида. Общий вид гипотез для генетических алгоритмов мы 
подробно обсуждали, когда старались закодировать их наибо- 
лее эффективным путём в $ 4.4. В общем, у каждого алгоритма 
есть множество гипотез, на котором он ведёт свой поиск. 

Во-вторых, процесс обучение немыслим без данных, на ос- 
новании которых алгоритмы принимают свои решения и выби- 
рают ту самую наилучшую гипотезу. Здесь уже такого разнооб- 
разия не наблюдается: фактически, любой алгоритм готов при- 
нять любые данные, нужно только отформатировать их подхо- 
дящим образом. Важно, что гипотезу выбирают так, чтобы она 
максимально хорошо подходила под данные. Алгоритмы клас- 
сификации вроде Find-S и ID3, которые рассчитаны на работу 
без «шума» в данных, выбирают гипотезу так, чтобы она иде- 
ально подходила под данные. Нейронные сети стараются мини- 
мизировать среднеквадратичную ошибку — в случае веществен- 
нозначных функций идеального соответствия данным ожидать 
сложно.!. Генетические алгоритмы не могут гарантировать иде- 
ального соответствия, но стараются максимизировать функцию 
Fitness, которая обычно напрямую зависит от того, насколько 
удачно описываются имеющиеся данные. 

Эти два компонента в самом общем их виде — почти всё, что 
нам сейчас потребуется. Стоит сделать только одно замечание. 
И гипотезы, и данные нам могут помочь только в каких-либо 
предположениях. Вероятностные предположения всегда нуж- 
но вербализовывать, эксплицировать... в частности, знать их за- 
ранее. Иногда получается, что предположения, которые неяв- 
но требуются для того или иного вывода, на самом деле могут 
дать гораздо больше. А иногда получается, что даже довольно 
естественные предположения оказываются достаточно сильны- 
ми, чтобы однозначно решить требуемую задачу (нечто подоб- 
ное, хоть тогда мы этого и не доказывали, у нас происходило 


1Волее того, в случае вещественнозначных функций довольно пробле- 
матично даже определить, что такое «идеальное соответствие данным», осо- 
бенно если речь идёт о компьютерных, то есть дискретных и конечных вы- 
числениях. 
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в $ 1.3, когда естественных предположений о мере неопределён- 
ности оказалось достаточно для того, чтобы определить её прак- 
тически однозначно). 

Итак, давайте предположим, что у нас есть некоторое мно- 
жество гипотез Н и множество имеющихся данных D. Тогда 
цель любого алгоритма машинного обучения — найти гипоте- 
зу, которая была бы наиболее вероятной при имеющихся дан- 
ных. Действительно, такое поведение было бы оптимальным — 
ничего более эффективного ожидать невозможно. Математиче- 
ски это можно записать слелующим образом. 


ОПРЕДЕЛЕНИЕ 5.2. Пусть Н — множество гипотез, О — мно- 
жество имеющихся данных. Гипотеза h є H называется макси- 
мальной апостериорной гипотезой (МАР, татітит a poste- 
пой hypothesis), если 


h = argmaxc p (hID). 


Давайте перепишем это по теореме Байеса: 


h = апвшахненр( О) = 


р(О[һ)р(һ) 
p(D) 
потому что p(D) от h не зависит. 
Часто предполагают, что гипотезы изначально равновероят- 
ны: p(hi) = p(h;j) для всех гипотез hi,hj € H. Тогда предыдущее 
выражение можно переписать ещё проще: 


= агбтахнел = argmax pep (Dlh)p(h), 


h = argmaxpheup (Dih). 


Эти выражения — суть поиска оптимальной гипотезы. По 
ним можно сразу построить алгоритм поиска МАР-гипотезы: 
нужно для каждой гипотезы h є H вычислить её апостери- 
орную вероятность p(h|D), а затем выбрать ту гипотезу, для 
которой эта вероятность максимальна. Разумеется, мы не реко- 
мендуем применять такой алгоритм на практике: в любой хоть 
немного реалистичной задаче размер множества гипотез срав- 
ним с числом элементарных частиц во Вселенной.! 


1Физики оценивают это количество как число порядка 2'°°; иными CAO- 
вами, если гипотезами могут быть строки из 100 бит (не так уж и много, 
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Но, хотя по ним и можно построить алгоритм, основная 
функция выражений для поиска максимальной апостериорной 
гипотезы — не прямо практическая. МАР-гипотеза нужна для 
того, чтобы сравнивать с ней другие алгоритмы и выяснять, ко- 
гла они работают оптимально. Пример такого подхода мы при- 
ведём в следующем параграфе. 


$ 5.5. МАР и задачи классификации 


Для того чтобы найти максимальную апостериорную гипо- 
тезу, нужно научиться вычислять p(h) и р(О |"). Пусть выпол- 
няются следующие условия: 


— в О нет «шума» (те. все тестовые примеры содержат 
правильные ответы); 

— целевая функция с содержится среди гипотез H; 

— нет априорных причин верить, что одна из гипотез более 
вероятна, чем другая. 


Эти предположения весьма обычны для задач классифика- 
ции. Они выполнялись и для алгоритма 103 из Главы 1, и для 
алгоритмов FindS и элиминации кандидатов из Главы 2. Един- 
ственное, что может осложнить поиск максимальной апостери- 
орной гипотезы — это возможный «шум» в данных, которого мы 
уже касались, обсуждая проблему оверфиттинга в $ 1.8. Но мы 
пока закроем глаза на эту проблему — всё равно большинство 
алгоритмов классификации, нами рассмотренных, справиться с 
ней сами по себе, без внешней помощи, не могут. 

Из третьего условия следует: 


1 
р(Һ) = H] 


Условная вероятность p(D|h) — это вероятность наблюдать 3Ha- 
чения целевых функций (ї11,...,ї) для фиксированного набора 
входных данных (41,..., dm) при условии, что выполняется ги- 
потеза h. Поскольку «шума» нет, p(tilh) = 1, если ti = h(di), и 
p(tilh) = 0 в противном случае. Итого: 


для всех ВЕЛ. 


р(О|Һ) = { Ён di = h(x) для всех di € D, 
› ротивном случае. 


правда? эта сноска раз в десять длиннее), размер множества гипотез как 
раз будет порядка количества частиц во Вселенной. 
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(здесь вход гипотезы х; является частью тестового примера di). 

Для полноты картины, хотя это и не нужно для определения 
МАР-гипотезы, давайте подсчитаем вероятность р(0). Обозна- 
чим через Cons(D) множество гипотез h € H, совместных с D. 
Тогда. 


1 |ICons(D)]| 
р i 


р(0) = > р(О)р(һ) = H H 


heH НЕСопз(О) 


Итак, получаем: 
(но) = РР _ f ошто, если Vi di = а), 
p(D) 0, в противном случае. 


Иными словами, каждая гипотеза, совместная со всеми дан- 
ными — это максимальная апостериорная гипотеза. О чём это 
нам говорит? О том, что все алгоритмы, которые выдают ги- 
потезы, совместные со всеми входящими данными, в вышеоти- 
санных предположениях выдают максимальные апостериор- 
ные гипотезы. Это значит, что они работают идеально — ничего 
более хорошего сделать принципиально невозможно. 

Но позвольте — скажет внимательный читатель, — разве мы 
не посвятили добрую половину Главы 1 тому, чтобы выбирать 
из разных деревьев, одинаково идеально подходящих тестовым 
данным, оптимальное (под оптимальным мы обычно понима- 
ли дерево, имеющее минимальную глубину или минимальное 
число узлов)? А теперь вдруг оказывается, что всё это было 
не важно, и на самом деле любое подходящее дерево реали- 
зует максимальную апостериорную гипотезу... нехорошо как-то 
получается. Внимательный читатель будет абсолютно прав. Но 
причин для беспокойства всё равно нет — дело в том, что в 
этом параграфе мы изначально предположили, что все гипо- 
тезы а priori равновероятны. А в Главе 1 мы, напротив, пред- 
полагали, что деревья меньшей глубины и размера будут более 
вероятны, чем более развесистые деревья. В контексте байесов- 
ского вывода такое предположение выражается присваиванием 
разных априорных вероятностей разным гипотезам. Поис- 
ки подходящих поправок на размер дерева в Главе 1 (критерий 
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прироста информации, индекс Джини) были на этом языке по- 
исками адекватных априорных вероятностей для деревьев раз- 
ного размера. Предоставляем читателю самому вывести форму- 
лы априорных вероятностей различных деревьев, при которых 
алгоритм 103, использующий критерий прироста информации, 
будет осуществлять поиск максимальной апостериорной гипо- 
тезы. 

В данном случае мы байесовскими методами пришли к до- 
казательству того, что какие-то другие (небайесовские по су- 
ти) алгоритмы работают оптимально. Это одна из важнейших 
функций байесовских методов — тот редкий в искусственном ин- 
теллекте случай, когда что-то действительно можно (и совсем 
несложно, как мы уже убедились) математически доказать. 

Впрочем, результат, который мы получили, даёт больше ин- 
формации, чем простое подтверждение того, что тот или иной 
алгоритм решает поставленную задачу. Мы получили конкрет- 
ный, чётко математически определённый набор предположений, 
при которых алгоритм классификации работает оптимальным 
образом. Это уже напрямую даёт программу действий: если най- 
ленные предположения выполняются, то можно пользоваться 
имеющимся алгоритмом, не желая ничего лучшего. А вот если 
какие-то условия не выполняются, то можно искать (это, прав- 
да, ещё не значит, что удастся найти) алгоритмы, которые ра- 
ботали бы лучше. Более того, в таком случае мы будем знать, 
какие именно предположения не выполняются, и это, скорее все- 
го, поможет разработать алгоритм, который будет ближе к оп- 
тимальному. 

Позднее мы приведём другие примеры аналогичного приме- 
нения байесовских методов, а пока обратимся к более практиче- 
ским вопросам — построению байесовских классификаторов. 


$ 5.6. Оптимальный и гиббсовский классификаторы 


До сих пор мы отвечали на вопрос: «Какова наиболее веро- 
ятная гипотеза при имеющихся данных?». Но на самом деле нас 
не интересуют гипотезы — что проку в том, чтобы знать, что 
данные игр «Зенита» с наибольшей вероятностью описываются 
той или иной гипотезой? Практически важный вопрос стоит по- 
другому: нужно реально продолжать функцию классификации, 


176 Глава 5. Байесовское обучение и классификаторы 


а не просто выдвигать о ней правдоподобные гипотезы. Таким 
образом, теперь пора ответить на вопрос: «В какой класс новый 
пример при имеющихся данных попадает с наибольшей вероят- 
ностью?». 

Казалось бы, можно просто применить максимальную апо- 
стериорную гипотезу. Однако этот метод не всегда приводит к 
оптимальным результатам. 


ПРИМЕР 5.3. Когда не нужно применять МАР — >~ —__—_—_ 

Пусть множество гипотез состоит из четырёх элементов, и их апо- 
стериорные вероятности равны 0,2, 0,2, 0,2 и 0,4 соответственно. Чет- 
вёртая гипотеза — максимальная апостериорная. Но если новый при- 
мер классифицируется первыми тремя гипотезами положительно, а 
четвёртой — отрицательно, то общая вероятность его положительной 
классификации составит 0,6, и применять МАР было бы неправильно. 


Пусть имеются данные D и множество гипотез H. Для вновь 
поступившего примера х нужно выбрать такое значение у є У 
(через У мы здесь обозначаем множество возможных классов, 
куда может попасть h(x)), чтобы максимизировать p(v|D). Ины- 
ми словами, наша задача — найти 


argmax„ey У р(МП)р(НО). 
һен 
ОПРЕДЕЛЕНИЕ 5.3. Любой алгоритм, который решает зада- 
чу 
агатах,сү У р(уһ)р(МР), 
һен 
называется оптимальным байесовским классификатором (ор- 
timal Bayes classifier). 


ПРИМЕР 5.4. Продолжение примера 5.3 

В примере 5.3 мы рассматривали четыре гипотезы hį, i = 1..4 с 
множеством значений \ = {0,1}. Вероятности распределялись следу- 
ющим образом: 


р(х = Пт) = p(x = 1) = р(х = 1һз) =1, р(х = 1) =0, 
р(х = Ол) = p(x = 012) = p(x = Оз) =0, р(х = 04) = 1. 
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Тогла 
4 
У р(х = 1hi)p(hilD) = 0,6, Ун х = отр) = 04, 
и оптимальный классификатор Беа ее этот пример 


как положительный, а не как отрицательный, хотя так рекомендует 
поступить МАР-гипотеза. 


Отметим, что оптимальный классификатор действительно 
оптимален: никакой другой метод не может в среднем превзойти 
его. Он может даже классифицировать данные по гипотезам, не 
содержащимся в Н; в частности, он может классифицировать 
по любому элементу линейной оболочки Н. 

Но, с другой стороны, оптимальный байесовский классифи- 
катор обычно не получается эффективно реализовать — нужно 
перебирать все гипотезы, а всех гипотез очень много. Поэтому 
приходится искать возможности ускорить этот процесс. 

В оптимальном классификаторе мы должны для каждого 
возможного ответа вычислить взвешенную сумму правдоподо- 
бий всех гипотез при условии такого ответа. Это выражение до 
известной степени напоминает выражение для определения ма- 
тематического ожидания. Поэтому напрашивается вполне ло- 
гичное ускорение алгоритма: вместо суммы по всем гипотезам 
> һен Р(МЋР(НО) можно рассмотреть случайную гипотезу, взя- 
тую с распределением p(h|D). Такой метод называется класси- 
фикатором Гиббса.! 

В итоге алгоритм получается довольно простой. 


1. Выбрать случайную гипотезу h є H согласно распреде- 
лению их апостериорных вероятностей. 


1 Джосайя Уиллард Гиббс (Josiah Willard Gibbs, 1839-1903) — знамени- 
тый американский физик, который фактически создал теоретические осно- 
вы химической термодинамики; достаточно неожиданно увидеть его имя в 
связи с этими алгоритмами, к которым он не имел ни малейшего отноше- 
ния. На самом деле это имя попало сюда транзитом через сэмплирование 
по Гиббсу (Gibbs sampling), которое так называется потому, что это CƏM- 
плирование напоминает статистическую физику. Кстати, сэмплирование по 
Гиббсу тоже не Гиббс придумал — алгоритм был разработан через восемь- 
десят лет после его смерти [49]; более подробно о сэмплировании по Гиббсу 
см. [27,48, 133]. 
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2. Классифицировать новый случай x согласно h. 


Мы здесь оставляем за кадром подробности того, как сэм- 
плировать с заданными вероятностями — это может зависеть 
от конкретного множества гипотез. Но обычно это получается 
реализовать гораздо более эффективно, чем вычислять сумму 
по всем гипотезам. Главное преимущество этого метода в том, 
что гиббсовский классификатор сходится к оптимальному ре- 
шению с ошибкой, лишь вдвое больше ошибки оптимального 
классификатора (при определённых не слишком жёстких усло- 
виях) [35, 99, 103, 142]. Поэтому алгоритм Гиббса обычно оказы- 
вается предпочтительнее. 


$ 5.7. Наивный байесовский классификатор 


Оптимальный классификатор и гиббсовский классификатор 
оставляли за кадром задачу поиска апостериорных вероятно- 
стей гипотез. Свой ответ на этот вопрос предлагает наивный 
байесовский классификатор (naïve Вауеѕ)!. Впервые его ис- 
пользовали ещё в начале шестидесятых [102, 110], и с тех пор 
наивный байесовский классификатор используется очень широ- 
ко. Он делает настолько сильные предположения, что даже не 
верится, что он может хорошо работать. Однако практика по- 
казывает, что наивный байесовский классификатор оказывается 
весьма эффективен для задач классификации с большим коли- 
чеством параметров, таких, например, как классификация тек- 
стов. В последние лет десять, кстати, появились теоретические 
доказательства эффективности наивного байесовского класси- 
фикатора, и хотя они не входят сейчас в нашу задачу, мы поре- 
комендуем читателю эти действительно весьма интересные MC- 
следования [39, 61, 166]. 

Постановка задачи ничем не отличается от любой другой 
задачи классификации: каждый пример х принимает значения 
из некоторого множества \У и описывается атрибутами 


(а1,а2,...,ал). 
Требуется найти наиболее вероятное значение данного атрибута: 
vo = агетах „ур (x = у|ат,аг,...,аһ). 


1Иногда его даже называют 1410’; Bayes, но мы не рискнём употреблять 
этот термин и переводить его на русский язык. 
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По теореме Байеса, 


УМАР = argmax р(ат,а2,... ах = у)р(х =v) _ 
Е У 
о р(а1,а2,...,аһ) 
= агұшах,үр(91,02,...,0.х = у)р(х = v). 


Оценить р(х = у) легко: при наличии даже не слишком боль- 
шого числа тестовых примеров можно оценить частоту встреча- 
емости каждого из значений х. Но оценить разные вероятности 


рт =1,m = 2,... м = тх = у) 


не представляется возможным — их слишком много. Для то- 
го чтобы получить оценки этих вероятностей, нам фактически 
нужно каждую из возможных комбинаций атрибутов пронаблю- 
дать по несколько раз. Это, разумеется, на практике невозмож- 
но. 

Поэтому наивный байесовский классификатор предполагает 
условную независимость атрибутов при условии данного значе- 
ния целевой функции. Иначе говоря, 


р(ат,а2,... ащх = v) = р(алх = у)р(а2х = у)...р(ах = у). 


Теперь уже даже относительно небольшого количества TECTO- 
вых примеров достаточно для того, чтобы весьма надёжно оце- 
нить каждую из этих вероятностей.! 
Итак, наивный байесовский классификатор выбирает у как 
n 
Умв(а1,а2,... ап) = аташахуур(х = v) |] [pax = у). 
i=l 
В практической задаче распознавания текстов (например, 
при создании спам-фильтра) атрибутом будет появление того 
или иного слова в тексте. Соответственно, число атрибутов по- 
лучается совершенно запредельным для прямого перебора: их 
по меньшей мере несколько десятков тысяч. Более того, если 
строить полную модель текста, то нужно учитывать местополо- 
жение слов друг относительно друга, что умножает число ат- 
рибутов на длину документа. Поэтому метод, устанавливающий 


1 «Надёжно» оценить вероятность — это значит построить оценку с до- 
статочно маленьким доверителъным интервалом. 
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условные независимости атрибутов друг относительно друга, со- 
вершенно необходим. Но наивный байесовский классификатор 
предполагает, на первый взгляд, какие-то совершенно фанта- 
стические вещи: получается, что появление слова не зависит от 
других слов, его окружающих, и даже, более того, не зависит от 
длины документа. И, тем не менее, наивный байесовский клас- 
сификатор оказывается на редкость эффективен. 


$ 5.8. Атрибуция текстов 


В этом параграфе мы рассмотрим пример конкретного при- 
менения наивного байесовского классификатора. Задача доста- 
точно традиционна для подобного рода инструментов и отно- 
сится к широкому классу задач «интеллектуального анализа 
текстов». Мы будем заниматься атрибуцией текстов: опре- 
делением по данному тексту его авторства. 

Наша программа будет реализована на языке С#. Порази- 
тельно, но для достижения результата потребуется не так уж 
много кода. 

Итак, первый файл содержит класс MyDictionary, в KOTO- 
ром реализован словарь, пополняющийся для каждого из тесто- 
вых текстов. Отметим, что русский язык достаточно сложен для 
классификации: нужно уметь распознавать одинаковые слова, 
хотя они могут стоять в разных грамматических формах. В иде- 
але для этого нужно реализовывать достаточно полный словарь 
всего языка или интеллектуальную систему распознавания сло- 
воформ; однако для нашего примера мы ограничимся удалением 
окончаний; массив ending содержит наиболее распространённые 
окончания, которые мы будем просто «отрезать» от слов, если 
они на них заканчиваются. А чтобы в результате не получались 
многочисленные одно-лвухбуквенные слова, мы введём ограни- 
чение на длину слова в словаре (не менее четырёх символов, не 
считая окончаний). 


Листинг 5.1. Маме Bayes на С: MyDictionary 


using System; 
using System.Collections .бепег1с; 
using System. I0; 


namespace TextClassificator { 
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public class MyDictionary { 
private static readonly string[] ending = 
new string[51] { 


"omy", "emy", "ами", "ыми", "ями", "ими", "ашь", 


"ешь", "ишь", "ого", "его", "ый", "ой", "ий", 
"ые", "ие", "ое", "ее", "ия", "ая", "ию", "ии", 
"ие", "ую", "ах", "ых", "их", "ть", "ов", "ев", 
"им", "ом", "ым", "ам", "ям", "ем", "ут", "ют", 
Чит”, Чет", Мат", "ят". Май, Uata Tom o Май "ы", 
"и! "ы! тю". пучу; 
private рісїіопагу<ѕїгіпе, double[]> dict = 
new Dictionary<string, double[]>(); 
public double[] this[string key] { 
get { 
string word = key; 
removeEnding(ref word); 
if (word.Length < 4) { return null; } 


if (dict.ContainsKey(word)) { 
return dict [word]; 

} else { 
return null; 


} 


private int num0fAuthors; 
public int NumOfAuthors { 
get { return num0fAuthors; } 


} 


private int currentAuthor = 0; 
private string text; 


private int[] wordsPerAuthor; 


public MyDictionary (string path) { 


string[] dirs = Directory.GetDirectories (path) ; 


num0f Authors = 

wordsPerAuthor = 

for (int і = 
wordsPerAuthor[i] = 0; 
currentAuthor = і; 


dirs .Length; 


new int [num0fAuthors] ; 
0; і < numOfAuthors; i++) { 


string[] files = Directory .GetFiles (dirs[i]); 


for (int j = 0; j < files.Length; 
readFromFile(files[j]); 
} 
} 


writeToFile("befornorm"); 


jt+) { 


182 Глава 5. Байесовское обучение и классификаторы 


decreaseDimension(); 
writeToFile("afternorm"); 


} 


public void readFromFile(string filename) { 
StreamReader sr = Е11е.ОрепТех+ (filename); 
text = sr.ReadToEnd(); 
int j = 0; 
while (j < text.Length - 5) { 

readNextWord(ref j); 

} 

} 


private void readNextWord(ref int j) { 
string word = ""; 
while(j < text.Length) { 
if (((text[j]>=°a?) && (text[j]<=°a?’)) || 
((ъех+ [ј1>=°А›) && (+ехё[3]<=?Я?))) { 
char ch = Сһаг.ТоГонег (text [3]); 
мога = мога + ch; 
jtt; 
} else { 
addWordToDictionary (нога) ; 
if (j != text.Length) { 
jtt; 
return; 


} 
} 
Console.WriteLine (word); 
addWordToDictionary (word) ; 
} 


private void removeEnding(ref string word) { 
if (word.EndsWith("c»") || word.EndsWith("ca")) { 
word = word.Substring(0, word.Length - 2); 


} 
for (int i = 0; i < ending.Length; i++) 
{ 
if (word.EndsWith(ending[i])) { 
word = word.Substring( 
0, word.Length - ending[li].Length); 
return; 
} 
} 


} 


private void addWordToDictionary(string word) { 
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removeEnding (ref word); 
if (word.Length < 4) { 
return; 


} 


if (аіс+.Соп+аіпѕКеу (word)) { 
dict [word] [currentAuthor] += 1; 
} else { 
dict.Add(word, new double [num0fAuthors]); 
for (int j = 0; j < numOfAuthors; j++) { 
dict [word] [j] = 0.1; 


} 

dict [word] [currentAuthor] += 1; 
} 
return; 


} 


public void decreaseDimension() { 
List<string> delString = 
new List<string>(dict.Count); 
foreach ( 
KeyValuePair<string, double[]> entry in dict) { 
for (int i = 0; 
i < entry.Value.Length; i++) { 
wordsPerAuthor[i] += (int)entry.Value[i]; 
} 
bool allEquals = true; 
for (int i = 0; i < entry.Value.Length; i++) { 
if((i != 0) && 
(entry.Value[i - 1]!=entry.Value[i])) { 
allEquals = false; 
goto LABEL; 


} 
LABEL: 
if (allEquals) { delString.Add(entry.Key); } 
} 
foreach (string s in delString) { 
dict .Remove (s) ; 
} 
foreach( 
KeyValuePair<string, double[]> entry in dict) { 
for(int i = 0; i < entry.Value.Length; i++) { 
entry.Value[i] = 
entry .Value[i]/wordsPerAuthor[i]; 
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public void writeToFile(string filename) { 
StreamWriter file = File.CreateText (filename); 
foreach ( 
KeyValuePair<string, double[]> entry in dict) 

{ 

file.Write (епїгу.Кеу); 

for (int i = 0; 

i < entry.Value.Length; i++) { 
file.Write(" " + entry.Value[i]); 

} 

file.WriteLine(); 
} 
file.Close(); 


Следующий файл реализует собственно классификатор: OH 


читает файл, поданный для классификации, и подсчитывает ве- 
роятность того, что это произведение того или иного из занесён- 
ных в класс MyDictionary авторов. 


Листинг 5.2. Маме Bayes на С: TextClassificator 


using System; 


namespace TextClassificator { 


public class Classificator { 
private MyDictionary mydict; 
private int num0fAuthors; 


public Classificator(MyDictionary mydict) { 
this.mydict = mydict; 
num0fAuthors = mydict .Num0OfAuthors; 

} 


public double[] whoIsWriter(string s) { 
int j = 0; 
double[] results = new double [num0f Authors] ; 
for (int 1 = 0; 1 < results.Length; 1++) { 
results[1] = 1; 
} 
while (j < s.Length) { 
string word = readNextWord(s, ref j); 
if (mydict[word] != null) { 
for (int k = 0; К < numûfAuthors; k++) { 
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results[k] *= mydict [word] [к]; 
} 
if (results [0] < 0.00001) { 
for(int g = 0; 
g < num0fAuthors; g++) { 
results[g] *= 10000; 


} 

double sum = 0; 

for (int y = 0; у < results .Length; у++) { 
sum += results[y]; 


} 

for (int с = 0; с < results .Length; c++) { 
results[c] = results [c]/sum; 

} 


return results; 


} 


private string readNextWord(string s, ref int j) { 
string word = ""; 
while (j < s.Length) { 
if (((s[j] >= *а?) && (s[j] <= ?я?)) Il 
((s[j] >= ?А?) && (s[j] <= ›Я?))) { 
char ch = Char.ToLower(s[j]); 
word = word + ch; 
jtt; 
} else { 
jtt; 
return word; 


} 


return word; 


И последний файл — файл с классом Main, собственно 3a- 
пускаемый файл. Как видно из него, нужно положить тексты 
для обучения в каталог test/learning (внутри которого катало- 
ги будут соответствовать авторам), а тексты для последующей 
классификации — в каталог test/checking. Конечно, в реаль- 
ном приложении возможность выбора рабочих каталогов стоит 
предоставить пользователю. 
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Листинг 5.3. Маме Bayes на С: Main 


using System; 
using System. I0; 


namespace TextClassificator 


{ 
class main 
{ 
public static void Main(string[] args) 
{ 
MyDictionary dict = 
new MyDictionary("test\\learning"); 
Classificator cl = new Classificator (dict); 
string[] dirs = 
Directory.GetDirectories("test\\rchecking"); 
for (int p = 0; p < dirs.Length; p++) 
{ 
string[] files = 
Directory .GetFiles (dirs [p]); 
for(int r = 0; r < files.Length; r++) 
{ 
StreamReader sr = 
File .0penText (files[r]); 
string s = sr.ReadToEnd() ; 
double[] res = cl.whoIsWriter(s); 
for (int t = 0; t < res.Length; t++) 
{ 
Console.Write(res[t] +" "); 
} 
Console.WriteLine(); 
} 
Console.WriteLine("---------------- "35 
} 
} 
} 
} 


Этот классификатор показывает весьма приличные резуль- 
таты. 

Как известно, язык Рег1 создавался во многом специально 
для работы с текстом и текстовых преобразований; кроме того, 
он создавался как ёмкий и компактный язык. Поэтому можно 
предположить, что и задачу атрибуции текстов на Perl решить 
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можно с меньшим количеством кода и элегантнее. Действитель- 
но, так и происходит. Правда, компактность достигается во мно- 
гом за счёт читабельности кода. Поэтому мы не будем подробно 
комментировать нижеприведённую программу: для заинтересо- 
вавшегося читателя задача самостоятельно в ней разобраться 
станет хорошим упражнением в языке Рег1. Добавим лишь, что 
не все регулярные выражения одинаково полезны, и некоторые 
из используемых в этой программе нужны только для удаления 
НТМГ-разметки, т.е. их можно не использовать, если на вход 
подаётся обычный текст. 


Листинг 5.4. Наивный байесовский классификатор на Реп 


sub getText { 

$dn = shift; 

fa mny 

opendir adir, $dn; 

foreach $fn(readdir adir) { 
if (!-f $dn.$fn) { next; } 
print "$dn$fn\n"; 
open tm, $dn.$fn; 
$_ = $_.join ? ?, <tm>; 
close tm; 

} 


closedir adir; 


в/\г|\п/ /g; 
s/<head.*?<\/head>//gi; 
s/<script.*?<\/script>//gi; 
s/<style.*?<\/style>//gi; 
s/<.*?>//gi; 

s/&nbsp;/ /g; 
s/&\w{1,10};/ /g; 
s/&#\d*;?/ /g; 
в/[^А-7а-2А-ЯЁа-яё]/ /g; 
s/ +/ /g; _ 
$т/а-га-яё/А-7А-ЯЕ/; 
return $_; 


sub рефМогаз { 
шу $4; 
@w = sort split ? ?, getText shift; 
push @и, ?$?; 
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$w = $ы[0]; 
foreach (@w) { 
if ($w пе $_) { 
$d->{$w} = $n; 
$n = 1; 


return $d; 


} 


print "Reading data.. .\п"; 

opendir dir, ’Data’; 

foreach $a(readdir dir ) { 
if ($a =” ш/\.$/) { next; } 
$dict->{$a} = getWords "Data\\$a\\"; 

} 

closedir dir; 

print "\n"; 

$ndict = getWords ?пем\\?; 


print "\nClassification...\n"; 

ба = sort keys %$dict; 

foreach (@a) { 
$аїсї®->{$_}->{?°$?°} = 1; 

} 


foreach $w (keys #$па1їсї) { 

$mp = -1; 

foreach (@a) { 
$p = $dict->{$_}->{$w} - $ndict->{$w}; 
$p = ($p == 0 ? 0.1 : abs $p); 
$аїсї->{$_}->{?$?} ж= $p; 
$x = $41сї->{$_}->{?°$?}; 
if (($шр > $x) || (фир == -1)) { 

$ир = $x; 


} 
} 
foreach (@а) { 
$dict->{$_}->{°$?} /= $mp; 
} 
} 


$m = -1; 
foreach (@a) { 
$x = $аїсї->{$_}->{?$?}; 
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if (($m > $x) || ($m == -1)) { 
$m = $x; 
$aut = $_; 
} 
} 


print "\nresult: $aut\n"; 


§ 5.9. Байесовское обучение и нейронные сети 


В $ 5.5 мы уже упоминали, что байесовское обучение часто 
оказывается стандартом, идеалом, с которым следует сравни- 
вать другие методы обучения и выяснять, насколько тот или 
иной алгоритм приближается к поиску максимальной апостери- 
орной гипотезы. В $ 5.5 было доказано, что алгоритмы деревьев 
принятия решений, рассмотренные нами в Главе 1, и алгоритмы 
обучения концептам, рассмотренные в предыдущих параграфах, 
работают оптимальным образом. Теперь настала пора отлать 
старый долг: в Главе 3 мы строили алгоритмы с целью миними- 
зировать среднеквадратичное отклонение от целевой функции 


1 Z ; ' 
Е(м\ло,... М.) = 3 РЕГ" — о(х),... 1) 
j=l 


ав $ 3.5 обещали, что расскажем здесь, почему нужно миними- 
зировать именно её. 
Итак, мы пытаемся приблизить нейронной сетью целевую 
функцию 
+: 0 — КҜ, 


имея набор тестовых примеров 


D = {(x1, а): 


B условиях приближения вещественнозначных функций не 
приходится ожидать, что данные точно лягут на график целе- 
вой функции. Наше главное предположение касается распреде- 
ления шума, т.е. отклонения тестовых примеров от идеального 
графика 1. 

Мы предполагаем, что ti = f(xi) + ең, где ei — нормалъ- 
но растределённый шум с нулевым средним. Иначе говоря, 
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мы предполагаем, что полученный результат тестового приме- 
ра укладывается на график искомой функции с точностью до 
нормально распределённого отклонения. Кроме того, мы пред- 
полагаем независимость тестовых примеров. 

Вследствие независимости тестовых примеров можно искать 
максимальную апостериорную гипотезу в виде 


m 
hmar = argmax pcp (D|h) = агашахһеу П", 


1=1 


где p(tih) — нормальное распределение с вариацией с и с цен- 
тром в и = Ћ(х:). Такой центр распределения получается MO- 
тому, что вероятность ищется при условии гипотезы һ, т.е. при 
условии, что гипотеза h верно описывает целевую функцию f, а 
это и означает, что f(xi) = һ(х{). 

Тогда. 


Для удобства вычислений воспользуемся несложным приёмом, 
давно ставшим стандартным в этой науке: возьмём логарифм 
от функции, стоящей под argmax; на значение argmax это не 
повлияет: 


тп. 
1 1 
hmar = argmaxpey 2: (5 = 52 (6 му) . 


1=1 


Удалив из-под атртах константы, как аддитивные, так и муль- 
типликативные, которые на него также не влияют (только знак 
«минус» превратит аготах в аготіп), получим: 


m 


ЋмАР = атетіп нс №. (4: — нба)? } 


1=1 


Тем самым мы доказали, что минимизация среднеквадра- 
тичной ошибки ведёт к максимальной апостериорной гипотезе. 
Это математически оправдывает алгоритмы обучения нейрон- 
ных сетей в том виде, в котором они были представлены в Гла- 
ве 3. 
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$ 5.10. Принцип наименьшей длины описания 


Всем известен философский принцип «бритвы Оккама»; его 
обычно записывают как «Entia поп sunt multiplicanda praeter 
necessitatem» («Не следует умножать сущности без необходи- 
мости»). Отметим, что сам Оккам! так не писал, самое близ- 
кое, что удаётся найти в его трудах — «Numquam ponenda est 
pluralitas sine necessitate» («Не следует утверждать многое без 
необходимости»). Да и приоритет не очевиден: аналогичные идеи 
высказывали Фома Аквинский? и Иоанн Дунс Скот. На самом 


Уильям Оккам (William of Ockham или Occam, ок. 1288 - ок. 1348) — 
английский францисканский монах и схоласт, обучался в Оксфорде, но так 
и не получил даже степени М. 5с. В 1324 году он поехал в Авиньон, по од- 
ной версии — в качестве профессора философии, а по другой — в качестве 
ответчика, обвиняемого в ереси. Как бы то ни было, к 1327 году Оккам уже 
успел не сойтись с папой по одному богословскому вопросу (не о св. Авгу- 
стине, а о бедности Христа и апостолов — францисканцы считали, что ни у 
самого Иисуса, ни у его ближайших учеников вовсе не было собственности, 
а папе эта идея нравилась значительно меньше), и ему пришлось бежать в 
Ваварию. С философской точки зрения, Оккам — один из первых номина- 
листов, некоторые называют его основателем современной эпистемологии 
(теории познания вообще и научного познания в частности). Главный на- 
учный труд Оккама — «Summa logicae», где он последовательно и полно 
изложил основы силлогистической логики. 

Фома Аквинский (Thomas Aquinas, ок. 1225-1274) — теолог и фило- 
соф, доминиканец. Он родился в Неаполитании и по материнской линии 
был родственником Гогенштауфенов. С некоторыми трудностями получив 
М. Sc., Фома Аквинский читал лекции в Париже, Риме и других крупных 
городах, много путешествовал и был одним из виднейших церковных чинов. 
Фома Аквинский фактически открыл западному миру Аристотеля, прими- 
рив его идеи с христианскими догмами и выделив из Аристотеля его на- 
учный метод. Как теолог Фома искал свидетельства существования Бога- 
создателя, свидетельства наличия замысла в окружающем мире, природе, 
естественных вещах и процессах и не пытался прибегать для этого к откро- 
вению или трансцендентальной, априорно-логической теологии. В «Summa 
Theologiae» он приводит и подробно обсуждает свои знаменитые пять до- 
казательств существования Бога, quinquae viae, те самые доказательства, 
которые пытался разрушить беспокойный старик Иммануил Кант. По иро- 
нии судьбы, 6 декабря 1273 года Фома, по его собственным словам, во время 
мессы испытал некий мистический опыт, получил откровение, которое чуть 
было не заставило его бросить недописанную «Summa Theologiae». Фома AK- 
винский был одним из самых влиятельных христианских философов; его 
труды определяли официальную позицию католической церкви в течение 
многих столетий. 
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деле нечто подобное можно найти даже у самого Аристотеля!; 
«бритва» получила имя Оккама потому, что последний очень 
активно применял её в своих теологических рассуждениях. Ка- 
залось бы, это базовый философский принцип — неужели его 
можно доказать математически и при чём вообще тут матема- 
тика? 

Оказывается, можно сформулировать (и доказать!) вполне 
формальное математическое утверждение, очень близкое к са- 
мой настоящей «бритве Оккама». Это утверждение называют 
«принципом наименьшей длины описания» (minimum descrip- 
tion length principle, или просто МОГ). 

Чтобы получить математическую формулировку МОГ, вер- 
нёмся к формуле максимальной апостериорной гипотезы и возь- 
мём в ней логарифм: 


hmar = argmaxnenP(DIh)p(h) = 
= агртахнел (106: p(Dlh) +log2p(h)). 


Умножая на —1, получим: 
hmar = argminpcey (— 1052 р(0|ћҺ) — log2 p(h)). 


Но —log2 p(D|h) — это в точности шенноновская энтропия 
О при условии h, то есть длина описания D в оптимальном KO- 
дировании при условии того, что гипотеза h соответствует дей- 
ствительности. А —1о@2р(һ), соответственно, — длина описания 
самой гипотезы h. 

Иначе говоря, формула поиска максимальной апостериорной 
гипотезы уже сама по себе рекомендует не умножать сущности, 


1 Аристотель ('Ар:істотє%ЛтС, 384-322 до н.э.) — греческий философ, уче- 
ник Платона и учитель Александра Великого. В течение 20 лет он слушал 
лекции Платона в Афинах, а после смерти учителя поступил на службу 
сначала к Гермию, а затем к Филиппу Македонскому, который доверил Ари- 
стотелю воспитание сына; когла Александр перестал нуждаться в учителе 
философии, Аристотель вернулся в Афины и основал там свою знаменитую 
перипатетическую школу. Как учёный Аристотель фактически сформиро- 
вал современный научный метод, создал формальную логику, основанную 
на силлогизмах. В рамках этой сноски его научные идеи невозможно даже 
кратко перечислить — они охватывают фактически весь корпус знаний, су- 
ществовавший в то время: физику (науку о движении), метафизику (первую 
философию, учение об основных принципах бытия), этику и политику (уче- 
ние о государстве). 
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а использовать кратчайшую из возможных записей описывае- 
мой ситуации! Это и называется принципом минимальной дли- 
ны описания. Им часто пользуются в статистическом машинном 
обучении. 


$ 5.11. Заключение 


В этой главе мы смогли поставить основную задачу всего 
машинного обучения — поиск максимальной апостериорной 
гипотезы. Эта задача появляется в разных видах, под разны- 
ми масками, порой она выглядит как задача аппроксимации, 
порой — как задача классификации, порой ещё как-нибудь. Но 
основная задача в машинном обучении всегда одна: есть множе- 
ство гипотез, есть некоторые (зачастую скрытые) распределе- 
ния вероятностей, есть неизвестные нам параметры этих рас- 
пределений, и требуется найти гипотезу, которая является в 
имеющихся предположениях наиболее вероятной при условии 
имеющихся данных. 


Глава 6 


Алгоритмы кластеризации 


Всё истинное знание, которым мы обладаем, зави- 
сит от методов, которыми мы отличаем похожее от 
непохожего. Чем больше естественных различий со- 
держат эти методы, тем яснее становится наша идея 
вещей. Чем более многочисленны объекты, кото- 
рые занимают наше внимание, тем сложнее и тем 
более необходимым становится создание такого ме- 
тода. Мы не должны ни объединять одним родом 
лошадь и свинью, хотя оба вида непарнокопытны, 
ни различать в разных родах козла, лося и север- 
ного оленя, хотя форма их рогов различается. Мы 
должны, таким образом, внимательным и усердным 
наблюдением определить границы родов, посколь- 
ку их нельзя определить а priori. Это — главная 
задача, наиважнейшая работа, ибо если перепута- 
ны роды, запутается и всё остальное. 


Genera Plantarum 
Карл Линней 
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После долгого и всестороннего анализа проблемы, консульта- 
ций с Кристофером Робином и чтения подшивок журнала «Пчело- 
водство» за последние тридцать лет Винни-Пух всё-таки завёл себе 
правильных пчёл. Они делают правильный мёд, живут в правиль- 
ных ульях неподалёку от домика медвежонка и почти не кусаются. 
В конце концов даже скептически настроенный Кролик был вы- 
нужден признать, что пчеловод из Винни-Пуха получился весьма 
приличный. 

Однажды, тёплым летним днём, Пух проснулся от угрожающе- 
го жужжания. Выбежав из дома, Винни увидел картину, которая 
запомнилась ему на всю жизнь: из его ульев вылетели сразу три 
новых роя! Пчёлы бешено кружились, и медвежонок подумал, что, 
пожалуй, его пчёлы сегодня куда больше похожи на тучки, чем он 
сам. 

Прибежавший на шум Кролик тут же перевёл разговор в прак- 
тическую плоскость: 

— Пух! Скорее! Рои надо ловить! 

— Но Кролик, как же я их поймаю? Я даже не могу отличить, 
какие пчёлы в одном рое, а какие — в другом... их тут слишком 
много. 

И Пух с Кроликом занялись тем, что стали показывать лапами 
на пчёл и вместе определять, из какого роя вылетела эта пчёлка. 
Правда, вскоре выяснилось, что они очень редко показывали на од- 
ну и ту же пчелу. А потом выяснилось, что пчёлы летают так быст- 
ро, что опилки в голове у медвежонка не могут за ними угнаться, 
и Пух не может запомнить, каких пчёлок они уже обсудили. Пух и 
Кролик всё говорили и говорили, так долго, что незаметно наступил 
вечер, все три роя один за другим улетели, и на пасеке воцарилась 
полная тишина... 


8 6.1. Введение 


Наверняка читатель уже слышал слово «кластеризация» и 
имеет визуальное представление о задаче кластеризации: ча- 
стично сгруппированные точки на плоскости (или в простран- 
стве более высокой размерности, в зависимости от воображе- 
ния читателя) постепенно разбиваются на близкорасположен- 
ные группы, как на рис. 6.1. Картинка красивая и очень близкая 
к истине; кластеризация именно в том м заключается, чтобы по 
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Рис. 6.1. Кластеризация 


набору точек в каком-то пространстве (не обязательно евклидо- 
вом) разбить их на «близкие» группы. 

Исторически одной из первых возникших в естественных на- 
уках задач кластеризации стала задача, описанная в эпиграфе 
к этой главе: как разделить различные виды животных на ро- 
ды (мельчайшие единицы — виды — выделить проще, и Линней 
считает, что виды уже определены)? У животных масса пара- 
метров, и основной задачей классификаторов было выделить 
признаки (как пишет Линней, «естественные различия»), по KO- 
торым их различать, то есть отделить существенные различия 
от несущественных. В математических задачах кластеризации 
функция различия обычно одна, но суть та же: найти некую 
внутреннюю структуру в данных, некую форму классифика- 
ции, по которой можно различать разные «роды» данных. 

Для чего нужно решать задачи кластеризации в «народ- 
ном хозяйстве» ? Во-первых, они лежат в основе анализа ланных 
(data mining) в самом широком смысле [36,59,60,62, 164, 167]. He- 
ловечество всегда очень любило с истинно плюшкинским приле- 
жанием накапливать огромные объёмы самых разных данных, 
которые некому было анализировать. Но особенно актуальным 
это стало в последнее десятилетие, со всеобщей компьютериза- 
цей и развитием интернета. Каждая уважающая себя компания 
сейчас хранит огромные объёмы истории своей деятельности 
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(например, у каждого супермаркета хранится история всех по- 
купок, которые в нём когда-либо делали), а интернет предостав- 
ляет гигантские массивы данных для самых разных, но неизмен- 
но полезных задач. Например, задача разделения документов на 
жанры и тематики, из чего могут получаться каталоги, автома- 
тически обновляющиеся ленты новостей и многое другое, — это 
в точности задача кластеризации [141]. 

Во-вторых, кластеризация — важная часть задачи распозна- 
вания образов. Например, если заданное изображение можно 
разделить на несколько областей-кластеров, это значит, что тут 
же появляются определённые границы и формы этих областей, 
а также их отличительные особенности. Вся эта информация 
может использоваться для распознавания [17, 18,41,45, 157]. Ca- 
ми изображения тоже можно кластеризовать и искать среди них 
похожие или выделять общие признаки. 

Третья весьма популярная область, где без кластеризации 
не обойтись — биоинформатика. Биоинформатика решает 3a- 
дачи, возникающие при анализе генетической и молекулярной 
информации, например, при анализе длинных последователь- 
ностей атомов в белках или не менее длинных последователь- 
ностей генов. В частности, в биоинформатике часто возника- 
ет задача разбиения огромных множеств генов на кластеры. В 
транскриптомике (разделе биологии, изучающем транскрипто- 
мы — наборы информационных РНК в клетке) результаты та- 
кой кластеризации зачастую содержат связанные друг с другом 
гены, кодирующие функционально схожие белки; их выделение 
и отделение от других позволяет решать задачу аннотации ге- 
нома. А в анализе последовательностей генов (sequence analysis) 
обнаруженные кластеры генов помогают выделить семейства 
(комплексы) генов, отвечающие за то или иное биологическое 
свойство и встречающиеся у нескольких видов организмов. Та- 
кие семейства — один из важнейших результатов биоинформа- 
тики [9,81,88, 114, 129, 161]. 

В качестве ещё одного примера упомянем маркетологиче- 
ские исследования, гле кластеризация помогает разделить дан- 
ные на группы и таким образом сегментировать рынок, а также 
анализ социальных сетей, где кластеризация может распозна- 
вать сообщества людей, схожие в стереотипах поведения или в 
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способах принятия решений (что, впрочем, применяться будет 
наверняка во всё тех же маркетологических целях) [13, 24, 116, 
160]. Используется кластеризация и в медицине, и в химии, и 
в геологии... думаем, читатель легко сможет продолжить этот 
список примеров. 

Есть, конечно, и подвох, который отличает обычно возника- 
ющие на практике задачи кластеризации от общепринятой кар- 
тинки, нарисованной в первых строках этого параграфа. Kpa- 
сивые картинки получаются в размерности два или три, (да-да, 
«камерный оркестр», тривиальный случай, К = 3), а размер- 
ность реальных задач гораздо выше, она измеряется сотнями и 
тысячами. Поэтому сложность алгоритмов кластеризации сле- 
дует оценивать относительно сразу двух параметров: и числа 
точек, и размерности пространства; и искать разумный компро- 
мисс в зависимости от стоящей перед вами задачи (размерность 
обычно несложно оценить заранее). 

В этой главе мы лишь немного коснёмся основных методов 
кластеризации. Кроме книг по анализу данных и машинному 
обучению, которые мы здесь уже неоднократно цитировали, по- 
рекомендуем читателю и обзорные источники, целиком посвя- 
щённые кластеризации [12, 75,93, 165]. 
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Кластеризация — типичная задача статистического анали- 
за: задача классификации объектов одной природы в несколько 
групп так, чтобы объекты в одной группе обладали одним и 
тем же свойством. Под «свойством» здесь обычно понимается 
близость друг к другу относительно выбранной метрики. 

Давайте попробуем сказать то же самое чуть более формаль- 
но. Предположим, что дан набор тестовых примеров 


X = {ж,... уха} 


и функция расстояния между примерами р: Ххх У К. 
Требуется разбить X на непересекающиеся подмножества, 
которые, собственно, и называются кластерами, так, чтобы каж- 
дое подмножество состояло из близких объектов, а объекты раз- 
ных подмножеств существенно различались. Определить, что 
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такое «близкие объекты» и что такое «существенно различать- 
ся» — это в каком-то смысле и есть задача кластеризации; то, 
насколько близки должны быть элементы Х, чтобы считаться 
«близкими», определяется тем, попадают ли они в один кластер. 


ПРИМЕР 6.1. Расстояние Е 

Рассмотрим в качестве примера задачу о том, как определить 
расстояние между двумя текстовыми документами. Это задача пер- 
востепенной важности для интеллектуального анализа текстов (text 
mining), и расстояние tf-idf, которое мы сейчас опишем, активно при- 
меняется на практике [15, 42, 73, 79,91, 141]. 

Текст, конечно, сам по себе плохая модель, в нём много лишнего. 
Его нужно сперва подготовить к анализу, выделив из него главное. 
Обычно документ представляется в виде вектора из п термов с неко- 
торыми весами; разные подходы к анализу текстов различаются в том, 
что такое терм и как определять веса. 

Обычно термы — это слова, встречающиеся в документе; доку- 
мент превращается при этом в неупорядоченный набор слов (bag of 
words). Практика показывает, что использовать более сложные струк- 
туры в качестве термов (например, синтаксически или статистически 
выделенные фразы) нецелесообразно — либо нужно будет слишком 
много текстов, и толком обучиться не получится, либо просто резуль- 
тат не будет существенно лучше, чем при bag-of-words подходе. 

Для определения весов обычно используют два основных подхода: 
либо бинарный атрибут со значениями 0-1 (есть слово или нет слова), 
либо весовую функцию, меру tfidf (term frequency — inverse document 
frequency). Её-то мы сейчас и рассмотрим. 

Эта мера была предложена в начале 1970-х годов [145] и с тех пор 
активно используется в анализе текстовой информации и information 
retrieval [136, 137]. Название подразумевает, что мера tfidf состоит из 
двух других: tf (частота терма, term frequency) и idf (обратная частота 
терма в документах, inverse document frequency). 

Частота терма — это доля числа появлений этого терма по отно- 
шению к размеру всего документа. Математически говоря, 


4,0; 
tf(tk, dj) = Etdi) 
У-у #(їк,а;) 
где #(tk,dj) — число, показывающее, сколько раз терм tk встречается 


в документе dj. 
Обратная частота терма idf показывает, насколько терм вообще 
важен, насколько он характерен для данного массива текстов. Ясно, 
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что чем реже встречается терм в имеющемся массиве, тем он харак- 
тернее.\ Соответственно, 


IDI 
ое’ 
где О — имеющийся набор данных, а ptk — количество документов 
из D, в которых хотя бы однажды встречается іу. 
Теперь легко объединить всё это в елиную меру. Мера tfidf для 
терма tk и документа dj в массиве D равна 


tkd D 
tfidf(tk,dj) = У (к, d Jidf (tk, dj) = EEN log FT 
k ›%7 


Вектор весов ещё можно потом нормализовать: 
tfidf(tk,d;) 


Ух: (tfdf(tx,d;))2 


Однако это ещё не всё. Мы сумели выразить вес каждого Tep- 
ма в каждом документе. Теперь документ можно представить в виде 
вектора, размерность которого равна количеству термов (здесь очень 
важно сохранять словарь не слишком большим за счёт удачного вы- 
бора термов — но это предмет совсем другой науки, feature selection, и 
в неё мы сейчас не будем углубляться). Но как же выразить расстоя- 
ние между документами? Для этого обычно употребляется не простое 
декартово расстояние, а угол между векторами (предлагаем читате- 
лю представить себе получившееся пространство и подумать, почему 
угол — это более правильная мера в данном случае, чем простое рас- 
стояние). Получается так называемая косинусоидальная мера NOTO- 
жести (cosine similarity measure): 


idf (tx, dj) = log 


Wkj = 


ат · d2 


Ө(а;, d2) = атс. 
11а. 111921 


Различают несколько видов кластеризации. Во-первых, ал- 
горитмы кластеризации делятся на иерартические и неиерар- 
хические. При иерархической кластеризации алгоритм последо- 
вательно строит кластеры из уже найденных кластеров, а при 


1Тут не нужно доходить до абсурда: слова, которые встречаются ровно 
один раз на весь массив документов, скорее всего, тоже не показательны. Но 
в процессе предобработки обычно слишком редкие (как и слишком частые — 
служебные слова, местоимения) слова из документов удаляются, поскольку 
классификации они могут только помешать. 
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неиерархической пытается распознать всю структуру сразу или 
строит кластеры один за другим, не разделяя и не соединяя уже 
выделенные кластеры. 

Иерархическая кластеризация делится (не слишком содер- 
жательно) на два типа. Она бывает агломеративной (объеди- 
нительной), когла алгоритм начинает с индивидуальных эле- 
ментов (кластеров из одного элемента), а затем последовательно 
объединяет их, получая требуемую структуру, и разделитель- 
ной, когла алгоритм начинает с одного кластера, содержащего 
все точки, а потом последовательно делит его на части. 

Неиерархические методы объединены тем, что все они, как 
правило, стремятся оптимизировать некую целевую функцию, 
которая описывает качество кластеризации. Мы рассмотрим ал- 
горитмы, основанные на методах теории графов, алгоритм ЕМ, 
имеющий вероятностную природу, его частный (но часто при- 
меняющийся) случай — алгоритм К-средних, а также нечёткие 
алгоритмы. 


$ 6.3. Иерархическая кластеризация 


Начнём с одного из простейших методов — агломеративной 
кластеризации. Предположим, как это обычно бывает, что нам 
нужно кластеризовать точки х1,х2,... ‚хи в некотором метриче- 
ском пространстве с метрикой р. 

Идея алгоритма в том, что на первом шаге мы считаем каж- 
дую точку отдельным кластером. Затем ближайшие точки объ- 
единяем и далее относимся к ним как к единому кластеру. При 
итерации этого процесса получается дерево, в листьях которо- 
го — отдельные точки, а в корне — кластер, содержащий все 
точки вообще. Из такого дерева кластеров можно выбрать кла- 
стеризацию с требуемой степенью детализации; обычно просто 
выбирают то или иное максимальное расстояние и считают, что 
если кластеры находятся на этом расстоянии, то объединять их 
уже не нужно. Схема алгоритма показана на рис. 6.2. 

Вроде бы всё просто и понятно. Но остаётся вопрос: как под- 
считывать расстояние между кластерами, если задана функция 
р, которая подсчитывает расстояние между отлельными точка- 
ми? 
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HierarchyCluster(X = {х1,...,хл}): 
1. Инициализируем C = X, G =X. 
2. Пока в С больше одного элемента: 
а) Выбираем два элемента С сі и C2, расстояние 
между которыми минимально. 
6) Добавляем в С вершину с1с2, соединяем её с 
вершинами C] и C2. 
B) C := C U {с1с2} \ {с1,с2}. 
3. Выдаём G. 


Рис. 6.2. Агломеративная кластеризация 


Здесь проявляется разница между двумя основными подхо- 
дами к иерархической кластеризации: single-link и complete-link 
алгоритмами (насколько нам известно, переводы этих терми- 
нов в русскоязычной литературе ещё не устоялись, и их обычно 
оставляют в английском написании). 

Single-link алгоритмы в качестве расстояния между класте- 
рами берут минимум из возможных расстояний между парами 
объектов, находящихся в кластерах. А complete-link алгоритмы 
подсчитывают максимум из этих расстояний. 

Поэтому при использовании single-link алгоритмов класте- 
ры могут разрастаться, «вытягивая щупальца», постепенно за- 
хватывая точки, которые находятся, может быть, и далеко от 
основной массы точек кластера, но связаны с ним «путём» из 
близкорасположенных точек. А кластеры у complete-link алго- 
ритма будут оставаться компактными (пока им не придётся объ- 
единяться с далёкими точками, разумеется), стремиться прини- 
мать сферическую форму и разрастаться во все стороны одно- 
временно. На рис. 6.3 показано, что в одной и той же ситуации 
и с одним и тем же порогом максимального размера класте- 
ра single-link алгоритм, скорее всего, объединит в один кластер 
больше точек, образующих этот своеобразный «Млечный Путь». 


$ 6.4. Кластеризация методами теории графов 


Кластеризация в метрическом пространстве естественным 
образом подталкивает к использованию теории графов. Точки 
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а 6 


Рис. 6.3. Виды иерархической кластеризации: 
а — single-link; б — complete-link 


в пространстве с расстояниями между ними можно рассматри- 
вать как полный граф с весами на рёбрах, равными расстоянию 
между точками, соединёнными данным ребром. 

Легко построить тривиальный алгоритм кластеризации: для 
этого нужно выбрать порог расстояния т и выбросить все рёбра 
длиннее т. Компоненты связности полученного графа и станут 
кластерами. 

Более изощрённый алгоритм кластеризации, основанный на 
идеях теории графов, использует понятие минимального остов- 
ного дерева. 


ОПРЕДЕЛЕНИЕ 6.1. Остовное дерево (spanning tree) графа 
С = (МЕ) — это связный подграф С, содержащий все верши- 
ны С и являющийся деревом. Минимальное остовное дерево 
(minimal spanning tree) графа G = (МЕ) с заданными на pëb- 
рах весами w : Е — В — это такое остовное дерево Т, что его 
суммарный вес не превосходит суммарного веса любого другого 
остовного дерева T’: 


У’ > м(е) > У wle). 


ecT’ ecT 
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Чтобы использовать это понятие для кластеризации, нужно 
сначала построить минимальное остовное дерево, а потом вы- 
кидывать из него рёбра максимального веса до тех пор, пока 
не получится нужное число кластеров. Сколько рёбер выбро- 
сим, столько кластеров получим (т.к. рёбра мы выбрасываем из 
дерева, и каждое удалённое ребро будет добавлять новую ком- 
поненту связности). 

Таким образом, единственная разница между разными алго- 
ритмами здесь будет заключаться в методе поиска минимально- 
го остовного дерева. Для решения этой задачи обычно применя- 
ются два широко известных алгоритма. Простейший из них — 
алгоритм Краскала (Kruskal): на каждом шаге выбираем ребро 
с минимальным весом, если оно соединяет два дерева, добав- 
ляем его в остовное дерево, если нет, пропускаем. Схема этого 
алгоритма приведена на рис. 6.4. 

Более сложный алгоритм — алгоритм Борувки (ВбгиуКа) — 
изображён на рис. 6.5. Сам Отакар Борувка опубликовал его 
в 1926 голу для решения задачи связности электрических се- 
тей [21], и про него все, конечно, благополучно забыли. В 1938 
году его переоткрыл Густав Шоке [32], в 1951 — четыре поль- 
ских автора, одним из которых был Ян Лукасевич, но и это 
не помогло. Окончательно его ввёл в употребление (вновь неза- 
висимо придумав) уже в шестидесятые годы Соллин, поэтому 
в литературе его иногда называют Sollin’s algorithm. Алгоритм 
Борувки иногда кажется сложным для понимания, но идея его 
на самом деле проста: можно строить минимальное остовное де- 
рево, начав с одной вершины и добавляя рёбра минимального 
веса, пока не покроем весь граф (такой алгоритм тоже суще- 
ствует и называется алгоритмом Прима — Риш’: algorithm). 
А теперь будем делать то же самое, но во всех вершинах од- 
новременно, то есть «распараллелим» этот процесс. Получится 
алгоритм Ворувки. 

И алгоритм Краскала, и алгоритм Борувки работают за вре- 
мя О(Е|1ор|У|), где Е — множество рёбер графа, а У — mmo- 
жество его вершин. Однако для того чтобы алгоритм Краскала 
работал так эффективно, нужно использовать особые, достаточ- 
но сложные структуры данных, ведь если использовать триви- 
альное тестирование на связность, оно будет на каждом шаге 
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Кгизка1(С = (МЕ), м: Е В): 
1. Отсортировать рёбра С по возрастанию веса, ини- 
циализировать подграф $ С С, $:= 0. 
2. Аля каждого ребра е в порядке возрастания веса: 
а) если конечные точки е ещё не связаны в S, 
добавить ев S. 


Рис. 6.4. Алгоритм Краскала 


Вотиука(С = (МЕ), м: Е > R): 
1. Инициализируем список из п деревьев L, в каж- 
дом дереве по одной вершине. 
2. Пока в L больше одного дерева: 
а) для каждого T € Г найти ребро минимального 
веса, соелиняющее Тс С \ Г; 
6) добавить все эти рёбра к минимальному остов- 
ному дереву; 
в) объединить пары пересекающихся деревьев в 
Г (размер Г при этом уменьшается вдвое). 


Рис. 6.5. Алгоритм Борувки 


занимать О([М)), и в сумме получится О(|Е|М)). А алгоритм Bo- 
рувки сложных структур данных не требует, поэтому на самом 
деле именно он является самым простым алгоритмом для эф- 
фективной реализации. Правда, эти алгоритмы — не рекордсме- 
ны по теоретической сложности: самый эффективный из ныне 
известных алгоритмов поиска минимального остовного дерева 
работает за время О(|Е|«(|М|)), где х — обратная к функции AK- 
кермана [30]! Но для практической реализации обычно разница 
между &(|V|) и log V совершенно не принципиальна, тем более 
что для алгоритма из [30] нужно сначала отсортировать рёбра. 

Мы воспользуемся тем, что алгоритм Краскала в его три- 
виальном виде достаточно прост, и приведём здесь реализацию 
кластеризации минимальным остовным деревом на весьма по- 
пулярном и очень изящном функциональном языке програм- 
мирования Haskell. Язык был назван в честь известного логика 
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Хаскелла Карри!. Сначала его так и хотели назвать Curry, но 
потом решили всё-таки не делать язык предметом постоянных 
насмешек; впрочем, всё равно не удержались и выпустили пер- 
вый релиз языка 1 апреля 1990 года [70]. В качестве учебников 
языка мы можем порекомендовать [37, 68, 72]. 


Листинг 6.1. Кластеризация остовным деревом на Haskell 


import System.Environment 

import Control.Monad 

import Data.Array 

import Data.List 

import Data.Tuple 

import Data.Graph.Inductive.Graph 
import Data.Graph.Inductive.Tree 
import Data.Graph.Inductive.Query.DFS 


type Point 


= (Double, Double) 
type PtGraph = 


Gr Point Double 


kruskal :: PtGraph -> [LEdge Double] 
kruskal g = kruskal’ g sorte c 
where 
sorte = sortBy(\c@(la,lb,1w) d@(ra,rb,rw) -> 
compare lw rw) $ labEdges g 
c = array (1, n) $ zip [1..n] [1..n] 
length $ nodes g 


kruskal’ :: PtGraph -> [LEdge Double] -> 
Array Node Node -> [LEdge Double] 
kruskal’ _ 1 _ = (0 


kruskal’ р (х0(#, s, м):+аі1) с 
| (с! f) == (с! s) = kruskal’ g tail с 
| otherwise = x:kruskal’ g tail nc 
where 


1Хаскелл Брукс Карри (Haskell Brooks Curry, 1900-1982) — американ- 
ский логик и математик. Он наиболее известен как автор парадокса Карри: 
рассмотрим высказывание «Если это высказывание верно, то я папа рим- 
ский». Предположим, что оно верно. Тогда, поскольку оно само так утвер- 
ждает, я — папа римский. Значит, из исходного высказывания следует, что 
я папа римский; обозначив высказывание за X — Y, получим (X —> Y) Э Y. 
Теперь применим правило сокращения и получим X — Y; иначе говоря, 
в результате получили, что исходное высказывание верно безо всяких уже 
условий. А из него следует Y. Иначе говоря, мы только что совершенно чест- 
но логически доказали, что я — папа римский. Этот парадокс относится к 
классу «self-referential paradoxes», как и, например, парадокс Эпименида: 
критянин Эпименид говаривал, что все критяне лжецы. 
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п = length $ nodes g 
nc = аггау(1,п) $ zip [1..n] $ 
пар(\а -> if а==Ёс then sc else а) $ elems с 
Ёсе БҮ 
sc=c!s 


clusters?’ :: PtGraph -> Int -> [[Node]] 
clusters’? g count = components $ gr 
where 


gr :: PtGraph 
gr = mkGraph (labNodes $ g) selEdges 
selEdges = drop (count - 1) $ reverse $ kruskal g 


dist :: Point -> Point -> Double 
dist a b = sqrt((fst а - fst b)*(fst a - fst b)+ 
(snd a - snd b)*(snd a - snd b)) 


clusters :: [Point] -> Int -> [[Point]] 
clusters pts count = map (\a -> map (\b -> point ! b) a) $ 
clusters?’ gr count 
where 
gr :: PtGraph 
gr = mkGraph (zip [1..n] pts) edg 
point = array (1, n) $ zip [1..п] pts 
edg = [(i, j, dist (point ! i) (point ! j)) | 
i <- [1..n], j <- [1..0] ] 
n = length pts 


main = ао 
#11епаше:[] <- getArgs 
w <- liftM words $ readFile filename 


let n = read $ head w 
points = getPoints $ map read $ tail w 
getPoints (a:b:r) = (a, b) : getPoints r 
getPoints П = П 


print $ clusters points n 


$ 6.5. Алгоритм ЕМ 


Алгоритм ЕМ — это скорее подход, метод, целый набор алго- 
ритмов для решения самых разнообразных задач, связанных со 
скрытыми переменными. Мы начнём знакомство с ним с самого 


8 6.5. Алгоритм ЕМ 209 


прямолинейного случая: попробуем получить (хотя бы асимп- 
тотически) оценку Ө на основе неполного свидетельства (свиде- 
тельства с пропусками). Этот подход также предполагает, что 
пропуски в данных не зависят от наблюдавшихся значений. 

Аббревиатура ЕМ означает ęexpectation-maximization». Это 
значит, что одна итерация алгоритма ЕМ во всех его модифика- 
циях состоит из двух шагов: Е-шаг (expectation step), на котором 
вычисляется математическое ожидание скрытых переменных в 
предположении текущей гипотезы, и М-шаг (maximization step), 
на котором вычисляется новая гипотеза. Иначе говоря, основная 
суть алгоритма в том, чтобы модифицировать гипотезу, осно- 
вываясь на ней самой! Несмотря на кажущуюся нелогичность 
такого поведения, легко увидеть, что на самом деле на М-шаге 
по делу используются тестовые данные, и новая гипотеза уже 
лучше им отвечает. Эта схема довольно давно неявно применя- 
лась для различных задач статистики, но впервые была явно 
выписана и исследована лишь в 1977 году [38]. 

Алгоритм ЕМ в данном случае возвращает точечную оцен- 
ку 6 для параметра Ө. Эта оценка может быть получена либо 
методом максимального правдоподобия (МГ) — максимизируя 
р( ев), либо методом максимальной апостериорной вероятности 
(МАР) — максимизируя р(9е). 

Перед началом работы алгоритма нужно выбрать точность 
є, которую требуется достигнуть в вычислении Ө. 

Первый содержательный шаг цикла называется шагом мато- 
жидания, поскольку он обычно реализуется с помощью вычис- 
ления математического ожидания достаточной статистики для 
пропущенного е*, нежели чем самого распределения вероятно- 
стей. Достаточная статистика — это статистика, которая «сум- 
мирует» набор данных и которая сама по себе содержит всю 
информацию, необходимую для обсуждаемого вывода. То есть 
достаточной статистики хватает для описания выборки, из неё 
можно получить всю релевантную информацию о распределе- 
нии вероятностей, которую из выборки вообще можно получить. 
Например, ии с — достаточные статистики для нормального 
распределения. 

Таким образом, $ — достаточная статистика для Ө относи- 
тельно е*, если и только если Ө не зависит от е* при известной 
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А 
1. Присвоить Ө максимальное допустимое значение; 
А 
0':= MAXINT. 
А А 
2. Пока |9’ — ð| > є: 
А Ау RN 
a) 9:= 0’ (за исключением первой итерации). 
6) Шаг матожидания. Вычислить распределение 
над пропущенными значениями: 


р(ее*,0)р(е*[0) 
У р(еје*,8)р(е"|9) 


р(є*|е,8) = 


в) Шаг максимизации. Вычислить новую оценку 
6’ согласно либо МІ, либо МАР при данном 
р(е*|е,6). 


Рис. 6.6. Максимизация математического ожи- 
дания — EM 


$, то есть (ӨШ е*|<). При такой заданной статистике $ второй шаг 
её использует, чтобы максимизировать значение обучаемого па- 
раметра (то есть параметра, оценка которого вычисляется). 

Алгоритм ЕМ обычно быстро сходится к наилучшей точеч- 
ной оценке параметра; однако это — наилучшая оценка лишь 
локально. Она может не оказаться наилучшей глобально. Ару- 
гой недостаток: мы всё же получаем лишь точечную оценку 0, 
а не все вероятностное распределение. 

Теперь мы представим алгоритм ЕМ в его двух формах: по- 
иск максимального правдоподобия (ML) и поиск максимальной 
апостериорной вероятности (МАР). 

Целью первой формы является МІ-оценка для Ө при данном 
неполном е. Как водится, нужно выбрать точность є, которую 
требуется достигнуть в вычислении б. А затем — как на рис. 6.7. 
Счётчик Мук хранит число реализаций возможных совместных 
означиваний X; и ра(Х;), занумерованные индексами К для Xi и 
j для ра(Х{). Матожидания этих счётчиков совместно обеспечи- 
вают достаточную статистику для е*. Для каждого отдельного 
счётчика его матожидание подсчитывается суммированием ве- 
роятностей из правой части равенства. Поскольку на этом шаге 
мы имеем заранее оценённый параметр 6, мы можем вычислить 
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А 
1. Присвоить Ө максимальное допустимое значение: 
А 
Ө':= МАХІМТ. 
А А 
2. Пока |9'— | > є: 
А А/ r 
a) 9:= 0’ (за исключением первой итерации); 
6) вычислить матожидание достаточной стати- 
стики для е*: 
1=N 
А 
Е роще) Мк = У РОЧ%к,ра(Х;)|Ү,8); 
1=1 
А 
в) максимизировать р(е*|0') с использованием 


ду _ Бред) №9 
ijk — 


У Еред 


Рис. 6.7. Алгоритм МІ/ЕМ 


правую часть. А на шаге максимизации нужно использовать ма- 
тематические ожидания статистик как их самих. Аналогичная 
процедура на рис. 6.8 приводит к максимизации р( бе). 

Но ЕМ — это гораздо больше, чем просто ценная максими- 
зация. Давайте рассмотрим один из простейших примеров чуть 
менее тривиального применения алгоритма ЕМ; этот пример 
приведёт в Главе 6 к массе эффективных алгоритмов класте- 
ризации. Пусть случайная переменная х сэмплируется из сум- 
мы двух нормальных распределений. Дисперсии даны (и они у 
обоих распределений одинаковые), нужно найти только средние 
Ил, М2. 

По начальным данным нельзя понять, какие Xi были по- 
рождены каким распределением; таким образом возникает клас- 
сический пример скрытых переменных. Один тестовый пример 
можно полностью описать как тройку 


и 


где Zij = 1 тогда и только тогда, когда Xi был сгенерирован j-M 
распределением.1 


Здесь можно было бы обойтись одной переменной, ведь 212 = 1 — 241. 
Мы вводим две лишь для удобства и единообразия. 
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А 
1. Присвоить 9 максимальное допустимое значение: 
А 
0':= MAXINT. 
А А 
2. Пока |0’ — Ө| > є: 
А Ау ü 
a) 9:= 0’ (за исключением первой итерации); 
6) вычилить матожидание достаточной стати- 
стики для е*: 
1=N 
А 
Е охе Мк = У РОЧ%к,ра(Х;)|Ү,8); 
1-1 
А 
в) максимизировать р(9'|е*) с использованием 
A бак + Ep же6) №к 


> ок" + Е же, 6) Мк 


у 


где олук — параметр распределения Дирихле. 


Рис. 6.8. Алгоритм МАР/ЕМ 


Переменные Zij формализуют неопределённость в условий; 
если раньше она выражалась не слишком математическим «мы 
не знаем, какое распределение породило хі», то теперь мы пе- 
реформулировали это как «мы не знаем значения переменных 
2)». Разница для удобства дальнейших рассуждений принципи- 
альнейшая. 

Разберём суть алгоритма ЕМ на примере с двумя нормаль- 
ными распределениями. Общая схема ЕМ в этом случае отраже- 
на на рис. 6.9. Суть Е-шага в том, чтобы пересчитать значения 
(математических ожиданий) скрытых переменных на основе те- 
кущей гипотезы. В случае нормальных распределений и смеси 
двух гауссианов получается так: 


=. р(х = жи = ну) _ 
Е(2;) = — — — — = 
р(х = хин = ш) + р(х = xilu = ш) 


=з? (х =щ )? 


z ез2 0-м )2 + e` zez 6-2 á 


О О 
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EMGauss({xi}}]): 
1. Сгенерировать какую-нибудь гипотезу 


h = (и1,иә2). 


2. Пока не достигнут локальный максимум (пока іц 
и и2 достаточно сильно изменяются): 
а) вычислить ожидание E(zij) в предположении 
текущей гипотезы (Е-шаг): 
e za a)? 
E(zij) = 


езет баш? | ezz H)? 


6) вычислить новые значения цу и p2, предпо- 
лагая, что Zij принимают значения E(zij) (М- 
шаг): 


1 m 
Ш := T 2 Е), 


Рис. 6.9. Алгоритм ЕМ для смеси двух нормаль- 
ных распределений 


Мы подсчитываем эти ожидания, а потом, на М-шаге, подправ- 
ляем гипотезу И = (ит, u2) в соответствии с новыми значениями 
E(zij): 


1 m 
њ := Tn х Е(235)х4. 
= 


Для полноты картины приведём написанный на языке Java 
класс МіхЅо1тег, реализующий этот алгоритм. Он реализует 
чуть более общий вариант этого алгоритма, в котором разделя- 
ется смесь из К гауссианов, и их дисперсии могут различаться. 
Класс можно использовать в виде 


double[] e = зо1уег.зо1уег(з1вща, х); 


где sigma — массив дисперсий (из длины этого массива класс 
понимает, сколько именно нормальных распределений смешано 
в тестовых данных), х — массив тестовых примеров, а получа- 
емый в результате массив е содержит полученные алгоритмом 
оценки средних этих распределений. Константу SEED_CONSTANT 
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можно заменить на любое число или на случайную функцию 
вроде того, сколько в текущем часе прошло миллисекунд. 


Листинг 6.2. ЕМ для разделения гауссианов на Java 


public class М1хбо1уег { 
private static Random rnd = new Random(SEED_CONSTANT) ; 


private double[] init(double[] sigma, double[] x) { 

int k = sigma.length; 

int m = x.length; 

double[] r = new double[k]; 

int[] t = new int[k]; 

for (int i = 0; i < m; i++) { 
int j = rnd.nextInt (k); 
r[j] += x[i]; 
t[j]++; 

} 

for (int i = 0; i < k; i++) { 
if (t[i] > 0) { 

rli] /= [11]; 


} else { 
rli] = 0; 
} 
} 
return т; 


} 


public double[] solver(double[] sigma, double[] x) { 
int k = sigma.length; 
int m = x.length; 
if (k == 0) 
return new double[] { }; 
if (k == 1) { 
double e = 0; 
for (int i = 0; i < m; i++) { 
е += x[i]; 
} 
e /= m; 
return new double[] { e }; 
} 
double[] e = init(sigma, x); 
double[] 0 z = new double [m] [К]; 
for (int step = 0; step < 100; step+t+) { 
// подсчитываем 2[1] [j] 
for (int i = 0; i < m; i++) { 
double d = 0; 


for (int j = 0; j < k; j++) { 
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Я += prob(x[i], e[j], sigma[j]); 
} 
for (int j = 0; j < k; j+) { 
z[i][j] = prob(z[i],e[j],sigma[j]) / d; 


} 
} 
for (int j = 0; j < k; j++) { 
е[1] = 0; 
double сиг = 0.0; 
for (int i = 0; i < m; i++) { 
e[j] = e[j] + z[i][j] * x[i]; 
сиг += 2[1][]]; 
} 
e[j] /= cur; 
} 
} 
return e; 
} 
/ жж 


ж Подсчитывает плотность вероятности у 
ж нормального распределения (е, sigma). 
ж/ 
private double prob(double v, double е, double sigma) { 
return Math.exp(-(v - е) * (v - е) / 
2.0 / sigma / sigma); 


$ 6.6. Кластеризация при помощи ЕМ 


В$6.5 мы рассматривали алгоритм ЕМ (expectation-maximi- 
zation), который умеет разделять смеси несколько вероятност- 
ных распределений. В частности, мы рассмотрели алгоритм (см. 
рис. 6.9), который разделял смесь двух гауссианов. Не правда 
ли, это сильно напоминает кластеризацию: взять два распреде- 
ления, набросать точек по этим распределениям, а потом разде- 
лять, какая точка какому распределению раньше принадлежа- 
ла... Но как же воспользоваться алгоритмом ЕМ для «настоя- 
щей» кластеризации? 

Ещё раз напомним, что для того чтобы воспользоваться ста- 
тистическим алгоритмом, нужно в первую очередь сформули- 
ровать гипотезы о распределении данных. 
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Первой такой гипотезой в данном случае будет гипотеза 
о природе данных: тестовые примеры появляются случайно и 
независимо, согласно вероятностному распределению, равному 
смеси распределений кластеров 


р(х) = У wpd), Ус 1, 


сЕС сЕС 


где We — вероятность появления объектов из кластера с, a Pe — 
плотность распределения кластера с. Эта гипотеза говорит о 
том, что за кластерами действительно стоит нечто реальное, то 
есть разные кластеры порождаются реально различающимися 
вероятностными распределениями. Формально же она позволя- 
ет сформулировать задачу кластеризации в виде задачи разло- 
жения смеси распределений, к которой мы уже умеем приме- 
нять алгоритм ЕМ. 

Осталось только выяснить, какими должны быть распреде- 
ления рс. Точнее говоря, не какими они должны быть в реаль- 
ности — это от нас не зависит, — а какими мы должны их пред- 
полагать для успешного решения задачи. Это сильно зависит 
от конкретной постановки задачи, поэтому в дальнейшем мы 
будем предполагать, что работаем в К" — обычном п-мерном 
евклидовом пространстве. 

В качестве неизвестных распределений часто берут сфери- 
ческие гауссианы, но это на самом деле не слишком гибкий ва- 
риант: кластер ведь может быть вытянут в ту или иную сторо- 
ну. Мы будем рассматривать эллиптические гауссианы, с осями 
разной длины вдоль разных осей координат. Это добавит выра- 
зительной силы, но вместе с ней добавятся и новые параметры 
для обучения. Итак, гипотеза о виде скрытых распределений 
звучит следующим образом: каждый кластер с описывается d- 
мерной гауссовской плотностью с центром ис = {исл,...,Иса} и 
диагональной матрицей ковариаций Łe = іар (021, kis 29) (ина- 
че говоря, у этого распределения по каждой координате своя 
дисперсия, и распределения по различным координатам неза- 
висимы). 

В этих предположениях кластеризация получается в точно- 
сти эквивалентной задаче разделения смеси вероятностных рас- 
пределений. Для этого мы и будем применять ЕМ-алгоритм. 
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Каждый тестовый пример описывается своими координата- 
ми ({(х),...,+(х)). Скрытые переменные в данном случае — 
вероятности gic того, что объект Xi принадлежит тому или MHO- 
му кластеру се С. 

Схема алгоритма по-прежнему состоит из Е-шага и М-шага. 
На Е-шаге по формуле Байеса вычисляются скрытые перемен- 
ные gici 

да усрс(х) 
z > vec Wope (х) | 
А на М-шаге с использованием Jic уточняются параметры кла- 
стеров w, u, о: 


12 
WwW = -3 gic, 
ns 

1=1 


1 n 
ш = ET 2_ ева), 

Е 2 
2 
тта 2 ве (fila) — не) | 


Рис. 6.10 содержит формальное описание этого алгоритма. 
Остаётся одна проблема: нужно задавать количество класте- 
ров. А что, если оно неизвестно? Решение этого вопроса мы отло- 
жим на потом, а сейчас приведём реализацию алгоритма ЕМ на 
языке программирования LISP (в $ 4.10 мы обещали привести 
пример полноценного алгоритма кластеризации на LISP). Мы 
снабдили код подробными комментариями; надеемся, что заин- 
тересованному читателю их будет достаточно (возможно, вкупе 
со справочником по языку), чтобы разобраться в том, как рабо- 
тает программа. Для понимания того, как программировать на 
LISP, рекомендуем обратить особое внимание на функции fold и 
product — это полноценные макросы, которыми LISP и славен. 


Листинг 6.3. Алгоритм кластеризации ЕМ на LISP 


; Математические функции 


; Возведение в квадрат 
(defun sqr (x) (* x x)) 
; Сложение векторов 
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EMCluster(X,|C]): 


1. Инициализировать |С| кластеров; начальное при- 
ближение: 


уй += 1/]С|, ис := случайный ха, 


1 n 
2 а. 2, 
Ocg = nic] 2 (fi(xi) — шо) . 


2. Пока принадлежность кластерам не перестанет 
изменяться: 
а) Е-шаг: 
ROR усрс(х) 
Jic ‘= Ее 
У сес с/с! (ха) 


6) М-шаг: 
1 n 1 т 
ус=—}) 9 Н=——}_0сї}(%4), 
n nwe 
іт izl 
1 n 
сё Ет 5 gic (fj(xi) = на)". 


1=1 
в) Определить принадлежность х; к кластерам: 


сз: := агетах с сдіс. 


Рис. 6.10. Алгоритм кластеризации ЕМ 


(defun v+ (&гезф vectors) (apply ?тар ?тес+ог ?+ уесфогз)) 
; Вычитание векторов 
(defun v- (&гезф vectors) (apply ?шар ?уесїог ?- уесфогз)) 
; Покомпонентное умножение векторов 
(defun уж (&гезф vectors) (apply ?шар ?уесїог ?* уесфогз)) 
; Умножение на скаляр 
(defun уз* (num vec) 
(map ’vector (lambda (х) (* num х)) vec)) 

; Покомпонентное возведение в квадрат 
(defun узаг (а) (v* а а)) 
; Выбор числа с заданной вероятностью 
(defun with-prob (prob item) 

(if (< (random 1.0) prob) item nil)) 
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; Функция свёртки, позволяющая комбинировать функции. 
; Например, инструкция (fold + O i (15) (* 2 i)) 
; подсчитает 
; 0 + 2ж1 + 2*2 + 2*3 + 2*4 + 2*5. 
(defmacro fold (func init index (low up) &body body) 
(1еїж ((res (gensym))) 
‘(let ((,res ,іпі+)) 
(loop for ‚index from ,low to ,ир do 
(setq ‚гез (,func ‚гез (progn ,@ойу)))) 
res) )) 


; Частный случай свёртки для произведений 
(defmacro product (index (low up) &Ъоду body) 
‘(fold ж 1 „index (,low ,ир) ,@body)) 


; Многомерный гауссиан с диагональной матрицей ковариаций 
(defun gauss (x mean sigma2) 
(product j (0 (1- (length x))) 
(let ((xj (aref x j)) 
(mj (aref mean j)) 
(sj (aref sigma2 j))) 
(if (zerop sj) 1 
(/ (exp (- (/ (ваг (- xj mj)) 
(* 2 sj)))) 
(sqrt (* 2 pi)) sj))))) 


ууу ---------- Операции над кластерами ---------- 
(defun make-cluster (м mean sigma2) 
(cons w (cons mean sigma2))) 
(defun w (cluster) (car cluster)) 
(defun mean (cluster) (cadr cluster)) 
(defun sigma2 (cluster) (cddr cluster)) 


ууу ---------- Операции над списками точек ------------ 
; Создаёт список точек для многомерных векторов, например: 
; (make-points 3 (1 2 3) (4 5 6)) --> 
Е (3 #(1 2 3) #(4 5 6)) 
(defun таке-роіпёѕ (dim points) 
(cons dim 
(loop for point in points 
collect (make-array dim :initial-contents point 
:element-type ’fixnum)))) 

; Выдаёт размерность списка точек 
(defun dim (points) (car points)) 


; Выдаёт сам список 
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(defun content (points) (cdr points)) 


; Случайно выбирает count элементов из списка 
; items без повторений 
(defun sample (items count) 
(let ((len (length items)) (selected 0)) 
(loop for item in items 
for n downfrom (length items) 
for p = (/ (- count selected) n) 
for x = (with-prob p item) 
until (= selected count) 
counting x into selected 
unless (null x) 
collect x) 


; Вычисляет вектор дисперсий списка 
; точек вокруг данного центра 
(defun dispersions (points center) 
(let ((len (length (content points))) 
(res (make-array (dim points) :initial-element 0 
:element-type ’fixnum))) 
(loop for point in (content points) do 
(loop for i from O below (dim points) do 
(setf (aref res i) (+ (aref res i) 
(зах (- (аге? point і) (аге? center 1))))) 
) 
) 
(уѕж (/ 1.0 (dim points) len) res) 
) 


; Создает count кластеров из items 
(defun init-clusters (items count) 
(let ((centers (sample (content items) count))) 
(loop for center in centers collecting 
(make-cluster (/ 1.0 count) center 
(dispersions items center)) 


; бценивает для каждого элемента items вероятность 
; попасть в тот или иной кластер; результат вида 

; ((р(х1 in c1) р(х1 in c2) р(х1 in c3) ...) 

$ (p(x2 in c1) р(с2 in c2) ...) 

о 
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(defun estimate-probs (items clusters pfunc) 
(let 
((estimate-item-probs (item) 
(let* ((probs-unnormalized 
(тар ?’list (lambda (cluster) (* (w cluster) 
(funcall pfunc item cluster))) 
clusters)) 
(sum (apply ?+ probs-unnormalized))) 
(тар ?’list (lambda (x) 
(if (zerop sum) 0 (/ x sum))) 
probs-unnormalized) 
))) 


(map ?115% #’estimate-item-probs (content items))) 


; Транспонирует матрицу. 
; Например: ((1 а) (2 b) (3 с)) --> ((1 23) (a b c)) 
(defun transpose-list-matrix (m) 
(if (null (car m)) nil 
(let ((cars (тар ?11$% ’car m)) 
(сагв (тар ?115% ?саг m))) 
(cons cars (transpose-list-matrix cdrs)))) 


; Вычисляет новое среднее кластеры 
(defun update-mean (cluster items probs) 
(let* ((1еп (length (content items)))) 
(уѕж (/ 1 len (м cluster)) 
(apply ?у+ (map ?11в% ’vs* probs (content items)))) 


; Вычисляет новое значение дисперсии кластера 
(defun update-sigma2 (cluster items probs) 
(let* ((len (length (content items))) 
(center (lambda (item) (v- item (mean cluster)))) 
(centered-items (шар ?115% center (content items)))) 
(уѕж (/ 1 len (w cluster)) 
(apply ?у+ (map ›113% ’vs* probs 
(map ’list ’vsqr centered-items))) 


)) 


; Пересчитывает вес, среднее и квадрат дисперсии кластера 
(defun update-cluster (cluster items probs) 
(let* ((len (length (content items))) 
(weight (/ (apply ?+ probs) 1еп)) 
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(mean (update-mean cluster items ргоЪз)) 
(sigma2 (update-sigma2 cluster items probs))) 
(make-cluster weight mean sigma2)) 


; М-шаг алгоритма EM 
(defun update-clusters (clusters items probs) 
(let* ((len (length items)) 
(clusters-probs (transpose-list-matrix probs))) 
(тар ’list (lambda (cluster cluster-probs) 
(update-cluster cluster items cluster-probs)) 
clusters clusters-probs))) 


; Находит индекс максимального элемента в массиве 
(defun argmax (list) 
(loop with res = 0 
for x in list and i upfrom 1 
maximizing x into max 
do (if (= x max) (setq res i)) 
finally (return res)) 


; По матрице вероятностей вычисляет для каждой точки, 
; к какому кластеру она наиболее вероятно относится 
(defun distribute-into-clusters (item-probs) 

(тар ’list ’argmax item-probs)) 


; Читает точку из строки формата "1 2" 
(defun read-point (dim line) 
(with-input-from-string (stream line) 
(loop repeat dim collect (read stream)))) 


; Читает файл в формате 
; <размерность> 
; <точка1> (в формате <коорд1> ... <коорд_діт>) 
; <точка2> 
; <точкаћ> 
(defun read-points (filename) 
(with-open-file (file filename) 
(1еф* ((dim (read file)) 
(cluster-count (read file)) 
(points (catch ’points 
(let ((points nil)) 
(loop (multiple-value-bind (line is-end) 
(read-line file) 
(push (read-point dim line) points) 
(if is-end (throw ’points (nreverse points))) 
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))) 
))) 
(values 
(apply #’make-points dim (list points)) cluster-count) 
)) 


; вместо "input.txt" можно подставить другой файл 
(multiple-value-bind (points cluster-count) 
(read-points "input.txt") 
(format t "~%Distribution: “a~%" 
(let ((clusters (init-clusters points cluster-count)) 
(pfunc (lambda (item cluster) 
(gauss item (mean cluster) (sigma2 cluster)))) 
(prev-distribution nil)) 
(catch ’result 
(loop (let* ((probs 
(estimate-probs points clusters pfunc)) 
(distribution (distribute-into-clusters probs))) 
(if (equal distribution prev-distribution) 
(throw ’result distribution)) 
; (format t "~“%Current distribution: “A~%" distribution) 
(setq prev-distribution distribution) 
(setq clusters 
(update-clusters clusters points probs) 
))) 
))) 


$ 6.7. Алгоритм К-средних 


Алгоритм К-средних (k-means clustering) фактически ABAS- 
ется упрощением алгоритма ЕМ; изобретён он был, как это ча- 
сто бывает с упрощениями, раньше самого EM [69]. Разница в 
том, что теперь мы не подсчитываем вероятности принадлеж- 
ности объекта разным кластерам, а жёстко приписываем каж- 
дый объект одному кластеру. Кроме того, в алгоритме К-средних 
форма кластеров не настраивается (но это с учётом первого за- 
мечания уже не так важно). 

Цель алгоритма К-средних — минимизировать меру ошибки 


n 
E(X, ©) = У Ia- ml, 
i=1 
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КМеапѕ(Х,|С|): 
1. Инициализировать центры |С| кластеров: 
Hi, -MCh 


2. Пока принадлежность кластерам He перестанет 
изменяться: 
а) определить принадлежность хі к кластерам: 


clust; := argmineccp (xi Ис); 
б) определить новое положение центров: 
мы ) ааз с 609) 
j X енде 1 | 


Рис. 6.11. Алгоритм кластеризации К-средних 


где и; — ближайший к х; центр кластера. В этом алгоритме 
мы не относим точки к кластерам, а двигаем центры. Принад- 
лежность точек при этом определяется автоматически: точка 
принадлежит кластеру с ближайшим к ней центром. 

Общая идея алгоритма та же, что в ЕМ: сначала инициа- 
лизировать центры кластеров каким-нибудь начальным разби- 
ением, затем классифицировать точки по ближайшему к ним 
центру кластера (аналог Е-шага), а затем перевычислить каж- 
дый из центров (аналог М-шага). Если ничего не изменилось, 
остановиться, если изменилось — повторить. 

Алгоритм К-средних очень часто применяется на практике; 
он предоставляет разумный компромисс между вычислитель- 
ной сложностью и качеством работы. Однако он имеет ряд недо- 
статков. Во-первых, как и в более общем алгоритме ЕМ, необхо- 
димо точно знать число кластеров заранее. Во многих задачах 
либо уже дано это число, либо его нетрудно как-то оценить; од- 
нако встречаются ситуации, в которых само это число уже пред- 
ставляло бы интересный результат кластеризации. Для таких 
ситуаций алгоритм К-средних сам по себе, без помощи других 
алгоритмов кластеризации, неприменим. 

Второй недостаток заключается в том, что качество резуль- 
тата сильно зависит от начального разбиения. Причём зависит 
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Рис. 6.12. Пример плохой работы алгоритма К-средних 


даже не напрямую от его качества; не просто чем лучше на- 
чальное разбиение, тем лучше кластеризация, а просто — одно 
разбиение приведёт к хорошей кластеризации, другое — к пло- 
хой, в которой алгоритм застрянет в достаточно «мелком» ло- 
кальном максимуме. На рис. 6.12 приведён типичный пример: 
точки чётко разделились на два кластера, но при этом центры 
кластеров на следующем шаге сдвинутся ближе к центральной 
линии, но останутся симметричными, а затем вовсе перестанут 
двигаться. «Правильные» кластеры окажутся разделёнными на 
две «неправильные» части — часть выше горизонтальной пунк- 
тирной линии и часть ниже неё. 

Поэтому на практике часто применяют сначала другой ме- 
тод кластеризации (более дешёвый вычислительно, иначе смыс- 
ла в этом никакого не будет), получая число кластеров и на- 
чальное разбиение, а затем уже с этими начальными данными 
запускают алгоритм К-средних. Есть, конечно, и масса других 
способов, интересных методов эффективной реализации алго- 
ритма К-средних, а также теоретических и практических оценок 
эффективности [7,78]. 

Ниже мы приводим реальный пример реализации алгорит- 
ма К-средних на языке Java. Это полноценная программа, а не 
отдельный класс, у неё есть метод main, и её можно запускать. 
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Листинг 6.4. Алгоритм К-средних на Java 


import java.io.*; 
import java.util.StringTokenizer; 


public class Solution { 
public static void main(String[] arg) { 
int n, m, K; 
BufferedReader br = new BufferedReader ( 
new InputStreamReader (System.in) ); 

try { 
n = Integer.parseInt (br.readLine()); 
m = Integer.parseInt (br.readLine()); 
k = Integer.parseInt (br.readLine()); 


// читаем вход 
Point[] x = new Point[m]; 
for (int i = 0; i < m; i++) { 

x[i] = new Point (п); 

StringTokenizer tok = 

new StringTokenizer (br.readLine()); 
for (int j = 0; j < n; j++) { 
x[i] .set(j, 


Float .parseFloat(tok.nextToken())); 


} 


// выполняем кластеризацию 
Point[] рр = clusterize(x, К); 


// выводим результат 
for (Point point : x) { 
int index = getClusterIndex(pp, point); 


System.out.println("(" + point.toString()+ 


и) ==> " + index); 


} 


} catch (Exception е) { 
e.printStackTrace(); 
} 
} 


public static int getClusterIndex( 
Point[] centers, Point p) { 
float min = p.dist(centers [0]); 
int index = 0; 
for (int i = 1; i < centers.length; i++) { 
float curDist = p.dist (centers [1]); 
if (curDist < min) { 
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min = curDist; 
index = i; 


return index; 


} 


public static Point[] clusterize( 
Point[] points, int k) { 
Point[] centers = new Point [К]; 
Point[] bbox = Point .calcBoundingBox (points); 
for (int i = 0; i < k; i++) { 
сепфегз[1] = new Point (Бох); 
} 
boolean changed = false; 
int iterations = 0; 
while (!changed && iterations < 10000) { 
iterations+t+; 
changed = false; 
for (int i = 0; i < centers.length; i++) { 
Point temp = 
new Point (points [0] .x.length) .clear(); 
int n = 0; 
for (Point p : points) { 
if (getClusterIndex(centers, p) == i) { 
+ешр.ааа (р) ; 
п++; 
} 
} 
+ешр.ѕса1е(п > 0 ? 1.0# / п: 1.0#); 
changed = !сепёегѕ [і] .едиа1з (temp) ; 
сеп+егѕ [і] = temp; 
} 
} 
for (Point р : centers) { 
System. out .ргіп+1п("сс " + p ); 
} 


return centers; 


} 


class Point { 
public Point (int dimension) { 
х = new float [dimension]; 
for (int i = 0; i < dimension; i++) { 
x[i] = (float)Math.random() * 10; 
} 
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public Point (Point p) { 
х = new float[p.x.length]; 
for (int i = 0; i < p.x.length; i++) { 
x[i] = р.х[і]; 
} 


} 
public Point (Point[] bbox) { 
int dimension = bbox[0] .x.length; 
х = new float [dimension]; 
for (int i = 0; i < dimension; i++) { 
float width = (bbox[1] .x[i]-bbox[0] .х[1]); 
x[i] = (float) (Math.random()*width-width/2); 
} 
} 
public void set(int i, float val) { 
x[i] = val; 
} 
public float dist(Point p) { 
float r = 0; 
for (int i = 0; i < x.length; i++) { 
r += Math.pow(x[i] - p.x[i], 2); 
} 
return (float)Math.sqrt (r); 
} 
public void add(Point p) { 
for (int i = 0; i < x.length; i++) { 
x[i] += p.x[i]; 
} 
} 
public Point clear() { 
for (int i = 0; i < x.length; i++) { 
x[i] = 0; 
} 
return this; 
} 
public void scale(float times) { 
for (int i = 0; i < x.length; i++) { 
x[i] *= times; 
} 
} 
public boolean equals (Point p) { 
for (int i = 0; i < x.length; i++) { 
if (Math.abs(x[i] - p.x[i]) > 0.01) { 
return false; 
} 
} 


return true; 
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} 
public boolean 1еѕѕ(Роіп+ р) { 
for (int і = 0; і < x.length; i++) { 
if (x[i] > р.х[1]) { 
return false; 
} 
} 
return true; 
} 
public String toString() { 
String s = ""; 
for (float f : x) { 
s +=" "+ Ғғ; 
} 
return 5; 
} 
public static Point[] са1сВоџпаіпрВох(Роіп+ [] points) { 
int dimension = points [0].x.length; 
Point left = new Point (points [0]); 
Point right = new Point (points[0]); 
for (int i = 1; i < dimension; i++) { 
for (int j = 0; j < points.length; j++) { 
if (left.x[i] > points[j].x[i]) { 
left.x[i] = points[j].x[i]; 


} 
if (right.x[i] > points[j].x[i]) { 
right.x[i] = points[j].x[i]; 
} 
} 

} 
Point result[] = new Point [2]; 
result [0] = left; 
result[1] = right; 
return result; 


} 
float[] x; 


Осталось обсудить ещё одну особенность алгоритмов EM и 
К-средних. И ЕМ, и К-средние хорошо обобщаются на случай ча- 
стично обученных кластеров (по-английски это называется 
semi-supervised clustering). Частично обученные кластеры воз- 
никают в ситуации, когда про часть точек уже известно, какому 
кластеру они принадлежат. Как это учесть в алгоритмах? 
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Чтобы учесть информацию о точке Xi, достаточно для ЕМ 
положить скрытую переменную gic равной тому кластеру, KOTO- 
рому нужно, с вероятностью 1, а остальным — с вероятностью 
0, и не пересчитывать эту вероятность при итерациях. Для К- 
means нужно то же самое сделать с переменной с1изї{. Оба ал- 
горитма в таком случае правильно обрабатывают дополнитель- 
ную информацию и дают разумные результаты с учётом этой 
заранее заданной структуры. 


5 6.8. Нечёткие алгоритмы кластеризации 


Во всех вышеприведённых алгоритмах один объект принад- 
лежал строго одному кластеру (правда, иногла мы говорили, 
что он принадлежит кластеру с какой-то вероятностью). Теперь 
же мы откажемся от этого ограничения и введём меру при- 
надлежности кластеру. Тем самым мы вводим нечёткость в 
её самой классической форме, по Заде! [8, 40, 117]. Мера при- 
надлежности — вещественное число из [0,1], и точки на краю 
кластера «меньше принадлежат» кластеру, чем в центре. 

Будем обозначать принадлежность кластеру с е С через 
ис(х). Меры принадлежности обычно выбирают так, чтобы 


Yx uc(x) 2 0 У их) =1. 


Нечёткие алгоритмы кластеризации (одним из которых яв- 
ляется алгоритм с-средних) минимизируют ту или иную меру 
ошибки. Часто применяется мера 


Е(С) = У. №. их) о? (Семет) | 


сєСхєх 
где тп — некоторый вещественный параметр. Доказывать, что 
минимизируется именно она, мы не будем, но эта функция ошиб- 
ки выглядит вполне естественной. 
Алгоритм с-средних очень похож на алгоритм К-средних и, 
как следствие, на алгоритм ЕМ. На Е-шаге нужно определить 


1 Лотфи Заде (Lotfi Zadeh, род. 1921) — математик, профессор универ- 
ситета Беркли, основатель теории нечётких множеств. Родился в Азейбар- 
джане (звали его тогда Лотфи Алескерзаде), потом жил в Иране, в 1944 
году переехал в США. 
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СМеапз(Х,]С]): 


1. Случайно выбрать коэффициенты ис(х) для всех 
хєХисє С. 

2. Пока алгоритм не сойдётся: 
а) Для всех сє С 


2 xex ме(х) 

> pex Мс(%)'® | 
б) Для всех c € Сивсеххє Х 

1 


ра p(Centere ,х) 
c'EC \ р(Сепёег, г,х) 


Сеп{ег, := 


ис(х) : үт 


Рис. 6.13. Алгоритм кластеризации с-средних 


центр кластера. Для этого обычно рассматривают взвешенную 
посредством Uc сумму по всем точкам: 


У Чо(х) "х 
› 
У хис(х)т 
где M — некоторый вещественный параметр. Затем, на М-шаге, 


меры принадлежности нужно перевзвесить относительно новых 
центров; результат по сути происходит из 


1 
Е р(Сепёег,,х)’ 


Center: = 


но его нужно ещё немного «фаззифицировать», ввести нечёт- 
кость. Точная формула и формальное описание алгоритма от- 
ражены на рис. 6.13. 

Отметим, что если M = 2, то перевзвешивание эквивалент- 
но линейной нормализации коэффициентов так, чтобы их сумма 
была равна единице. А при т — 1 всё больший и больший вес 
придаётся самому близкому кластеру, и алгоритм становится 
всё более похож на алгоритм К-средних. Получается, что алго- 
ритм с-средних обобщает алгоритм К-средних, позволяя варьи- 
ровать его поведение. 
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§ 6.9. Заключение 


Задачи кластеризации столь часто появляются и столь мно- 
гогранны, что глупо было бы и пытаться охватить все методы их 
решения в этой короткой главе. Мы наметили несколько подхо- 
дов, в том числе самый часто встречающийся метод К-средних, а 
также его обобщение, алгоритм кластеризации ЕМ, который на 
самом деле является одним из применений гораздо более общей 
схемы. 

Задача кластеризации — наверное, самая важная из всех 
задач машинного обучения. Большинство методов машинного 
обучения могут решать (и решают) задачи кластеризации, а на 
практике к кластеризации сводятся многие задачи анализа дан- 
ных (data mining). Однако в следующей главе мы рассмотрим 
задачу, которая к кластеризации не сводится. Мы рассмотрим 
обучение в ситуации, когла агент должен действовать в незна- 
комой ему среде, обучаясь по дороге и параметрам окружающей 
среды, и оптимальному для себя поведению. 


Глава 7 


Обучение с подкреплением 


— Как хорошо, что я взял его с собой — сказал он.— 
Немало медведей в такой жаркий день и не подума- 
ли бы захватить с собой то, чем можно немножко 
подкрепиться!.. 


Винни-Пух и все-все-все 
Алан Александр Милн в переводе Бориса 
Заходера 


Когда Винни-Пух ещё не научился как следует играть в пустя- 
ки, Кристофер Робин неосторожно пообещал: если Винни обыграет 
мальчика двадцать раз подряд, Кристофер Робин позволит медве- 
жонку съесть в доме всё, что пожелают его душа и животик. Рас- 
чёт Кристофера Робина был верный: пока мальчик и медвежонок 
выбирали почти одинаковые случайные палочки, двадцать побед 
подряд были крайне маловероятны. Однако после того, как Винни 
принялся за дело всерьёз (см. Главу 4), Кристофер Робин быстро 
проиграл десять раз подряд, затем пятнадцать, а затем и двадцать. 
Мальчику не хотелось сердить родителей, но слово было дороже. 

Так Винни-Пух осуществил свою давнюю мечту: залез в погреб. 
Там родители Кристофера Робина хранят множество разнообраз- 
ных ёмкостей: горшочков, кастрюлек, мешочков и так далее, и то- 
му подобное. В этих ёмкостях вполне может оказаться что-нибудь 
вкусненькое, чем можно как следует подкрепиться. 
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Света в погребе, конечно, нету. Винни может на ощупь передви- 
гаться по погребу, подбирать и ощупывать разные типы ёмкостей, 
а также пробовать то, что в них находится. При этом иногда Вин- 
ни везёт, и в горшочке оказывается мёд или что-нибудь не менее 
вкусное. Тогда, собственно, и происходит процесс подкрепления. А 
иногда не везёт, и приходится пробовать всякую гадость: горчицу, 
чёрный перец или — упаси Боже! — сыр. 

Винни должен побыстрее научиться распознавать горшочки с 
вкусными вещами и пропускать горшочки с невкусными, даже не 
пробуя. Но при этом нельзя просто выбрать один конкретный вид 
горшочка, не попробовав всё: вдруг именно в таких вот кастрюльках 
семья Кристофера Робина хранит особо вкусный мёд урожая 1804 
года (того самого, когда Наполеон | Бонапарт стал императором 
Французской республики). 

Правда, у родителей Кристофера Робина отнюдь не всегда под 
рукой оказывался именно нужный горшочек: зачастую приходилось 
складывать во что есть. Поэтому содержимое в результате разме- 
стилось по ёмкостям с изрядной долей случайности. Так что даже 
если в мешочке оказался сыр, это вовсе не обязательно означает, 
что больше такие мешочки трогать нельзя: вдруг это просто весьма 
досадная случайность... 


5 7.1. Введение 


До сих пор мы рассматривали задачи обучения на некотором 
наборе тестовых примеров. Иначе говоря, до сих пор задача ста- 
вилась так: есть набор «правильных ответов», который нужно 
продолжить на всё пространство. 

Но разве так работает обучение в реальной жизни? Мы дале- 
ко не всегла знаем набор правильных ответов заранее, мы про- 
сто выполняем то или иное действие и получаем результат. Если 
программа обучается игре в шашки, человек не сможет сказать 
ей, какой ход единственно правильный в сложившейся ситуа- 
ции. Всё, что у программы получится выяснить, — это то, вы- 
играла она в итоге или проиграла.! Если робот учится ходить, 


1Эта фраза была написана в начале 2007 года, а уже к его концу стало 
ясно, что человек на самом деле уже мог бы сказать программе правиль- 
ный ответ — недавно построили (разумеется, не без помощи гигантского 
компьютерного перебора) оптимальную стратегию для игры в шашки на 
доске 8 х 8 [31]. Можно было бы просто заменить шашки на шахматы или 
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человек не сможет сказать ему, какой именно мускул и насколь- 
ко сильно нужно напрячь в данную секунду — а просто скажет, 
получилось сделать шаг или нет. 

Такие ситуации, близкие к реальному обучению, можно оха- 
рактеризовать единой общей моделью. В этой модели обучаю- 
щийся агент взаимодействует с окружающей средой, предпри- 
нимая какие-то действия (выбирая их, конечно, из фиксирован- 
ного набора); окружающая среда его каким-то образом поощ- 
ряет или наказывает за эти действия, а агент продолжает их 
предпринимать. Единственный способ для агента понять, что он 
делает правильно, — следить за поощрениями от окружающей 
среды. Такой вид машинного обучения называется обучением с 
подкреплением (reinforcement learning). 

Попробуем поставить задачу формально. Пусть на каждом 
шаге агент может находиться в состоянии $ из некоторого мно- 
жества состояний S. На каждом шаге он выбирает из имеюще- 
гося набора действий А некоторое действие а. В ответ на это 
окружающая среда сообщает агенту, какую награду т он за это 
получил и в каком состоянии $’ после этого оказался. 


ПРИМЕР 7.1. Диалог обучающегося агента и окружающей среды 


Среда: Агент, ты в состоянии 1; есть 5 возможных действий. 

Агент: Делаю действие 2. 

Среда: Даю тебе 2 единицы за это. Попал в состояние 5, есть 2 воз- 
можных действия. 

Агент: Делаю действие 1. 

Среда: Отнимаю у тебя 5 единиц. Попал в состояние 1, есть 5 воз- 
можных действий. 

Агент: Делаю действие 4. 

Среда: Даю тебе 14 единиц за это. Попал в состояние 3, есть 3 воз- 
можных действия... 


В этом примере агент успел вернуться в состояние | и исследовать 
ранее не пробовавшуюся опцию 4 (получив за это существенную на- 
граду). То, что агент успел узнать об окружающей среде, представ- 
лено на рис. 7.1. Так и в общем случае — агент должен исследовать 
окружающую среду и выбирать оптимальное поведение. 


го, но мы решили не упускать повод упомянуть это весьма интересное до- 
стижение. 
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Ө 2 


-5 
Рис. 7.1. Пример взаимодействия агента со средой 


Знакомые с теорией вероятностей читатели уже, наверное, 
догадались, что здесь не обойдётся без марковских процессов. 
Действительно, мы к ним ещё вернёмся, и они будут играть важ- 
ную роль в построении новых алгоритмов, но пока обратимся к 
тому, как сравнивать и оценивать алгоритмы обучения с под- 
креплением. Для более подробного анализа описанных в этой 
главе алгоритмов рекомендуем [77, 122, 132, 135, 163]. 


$ 7.2. Как оценивать поведение агента? 


Мы исследуем алгоритмы, которые обучаются получать на- 
граду от окружающей среды. Разумеется, мы хотим получить 
алгоритмы, которые «хорошо себя ведут», то есть получают 
большую награду. Но то такое «хорошо»? Как оценивать по- 
ведение алгоритма в приведённых выше обстоятельствах? 

На этот вопрос есть несколько ответов, выбор между кото- 
рыми зависит от того, на какой срок жизни агента мы рассчи- 
тываем и на что хотим сделать упор в своих оценках. 

Первая, простейшая модель — это так называемая модель 
конечного горизонта (finite horizon model). В ней качество по- 
ведения агента измеряется только по отношению к следующим 
h шагам, и максимизировать нужно величину 


h 
E 8 Tt 
t=0 


Эта модель соответствует ситуации, когда у агента ограничен 
срок жизни: мы знаем, что у нас всего десять попыток, и по- 
этому нас не интересует, успешно ли мы обучимся производить 
одиннадцатую. 
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В более естественной ситуации, однако, хотелось бы учесть 
все возможные шаги в будущем, потому что время жизни аген- 
та может быть не определено. Но при этом в большинстве ре- 
альных задач чем раньше мы получим награду от окружающей 
среды, тем лучше. Например, рубль сегодня — это гораздо луч- 
ше, чем рубль через год, ведь его за это время можно разумно 
вложить и приумножить". 

Как это учесть в математической модели? Для этого доста- 
точно придать более быстрой прибыли больший вес, а более от- 
далённой во времени — меньший. Так мы одновременно убьём 
двух зайцев, ведь за счёт введённого коэффициента ү ещё и 
возникающий при суммировании по бесконечной длине жизни 
агента ряд начнёт сходиться (мы считаем, что выплаты тү огра- 
ничены сверху — в конце концов, у нас конечное число разных 
состояний и разных выплат). Итак, мы подсчитываем матема- 
тическое ожидание суммы ряда 


со 
Е Уут › 
+=0 


где ү — некоторая константа (в англоязычных текстах её обыч- 
но называют discount factor). Разумеется, имеет смысл только 
случай, когда 0 < ү < 1. 

Такая модель называется моделью бесконечного горизон- 
ma (infinite horizon model). Далее мы будем в основном пользо- 
ваться именно ею. 

Третья, реже встречающаяся, модель — модель среднего 
вознаграждения (average-reward model). В ней максимизации 
подлежит предел ожидания среднего вознаграждения 

h 


Эта модель не даёт быстрой прибыли преимущества перед OT- 
ложенной, поэтому на практике нечасто оказывается лучше MO- 
дели бесконечного горизонта. 


1 «Нет! расчёт, умеренность и трудолюбие: вот мои три верные карты, 
вот что утроит, усемерит мой капитал...» — говорил пушкинский Герман. 
Впрок ему это не пошло, но только потому, что вмешался совсем уж чело- 
веческий фактор... 
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h раз по +1 


+0 4- И раз по +аз D 


h роз по -b 


Рис. 7.2. Различия между оценками качества 


ПРИМЕР 7.2. Различия между моделями оценки качества 

Все вышеописанные модели разные, и несложно построить граф 
состояний, на котором все три модели будут приводить к разным оп- 
тимальным стратегиям. 

Рассмотрим граф на рис. 7.2. Пометки на рёбрах соответствуют 
получаемой при данном действии прибыли. Можно просчитать ра- 
боту каждой из стратегий на каждой из ветвей графа перехолов и 
вычислить вознаграждения в разных моделях. Вот что получается. 


Ветвь | Конечный Бесконечный Среднее 
горизонт горизонт вознаграждение 
Левая | аһ TEN F 0 
Верхняя | h т 1 
Нижняя | —bh = Э (2y" — 1) b 
Выберем теперь подходящие значения а и b: 
Jes y” Е ү" 


рр) орар 


При таких а и b оптимальные значения в таблице располагаются по 
Диагонали: модель конечного горизонта выберет левую ветвь, беско- 
нечного горизонта — верхнюю, а модель среднего вознаграждения — 
нижнюю. 


Кроме поведения уже готового алгоритма, нужно также на- 
учиться оценивать и качество его обучения — то, насколько 
быстро он стремится к своему пределу. 
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Главное (и обычно не так уж сложно доказуемое) свойство 
алгоритмов обучения с подкреплением — сходимость к опти- 
мальному (для данной модели, конечно). Это полезное свойство, 
но оно бинарно — или сходится, или не сходится; этот бит ни- 
чего не говорит ни о скорости сходимости, ни о том, с какими 
потерями мы подойдём к оптимальной стратегии. 

Более разумны оценки скорости сходимости. Здесь возмож- 
ны два альтернативных подхода: оценки скорости сходимости 
к какой-то фиксированной доле оптимальности (собственно оп- 
тимального алгоритма обучающийся агент обычно «достигает» 
лишь на бесконечности) и оценки качества работы алгоритма по 
истечении некоторого фиксированного времени. К сожалению, 
в обоих случаях возникают конкретные вопросы: какая нужна 
доля оптимальности? После какого времени нужно сравнивать 
качество алгоритмов? Однозначный ответ на эти вопросы найти 
трудно. 

Третий возможный подход — минимизировать ожидаемую 
расплату (regret) за выбор той или иной стратегии обучения. 
Любая обучающаяся стратегия не может принести больший до- 
ход, чем если бы агент следовал оптимальной стратегии с са- 
мого начала. Иными словами, задачу оптимального обучения 
можно рассматривать как задачу минимизации разницы между 
общей суммой выигрыша при обучении по сравнению с примене- 
нием оптимальной стратегии с самого начала. Если нам удастся 
подсчитать эту разницу, то можно очень просто сравнивать ал- 
горитмы обучения — у кого разница меньше, тот и победил. 
Это очень хорошая мера, ведь, собственно, она и является на- 
стоящей конечной целью происходящего. Но, к сожалению, она 
плохо поддаётся анализу: разумные результаты об этой мере по- 
лучить очень сложно. 

И последнее замечание, прежде чем мы перейдём к Heno- 
средственному изучению отдельных алгоритмов. Каждый алго- 
ритм обучения с подкреплением должен и изучать окружаю- 
щую среду, и пользоваться своими знаниями, чтобы максимизи- 
ровать прибыль. Возникает вопрос — как достичь оптимально- 
го соотношения? Та или иная стратегия может быть хороша, но 
вдруг она не оптимальная, и нужно искать другую? A, может 
быть, она уже идеальна, и нужно просто следовать ей, не тратя 
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времени на бессмысленные поиски? Эта дилемма (по-английски 
она звучит особенно красиво: «exploitation vs. exploration») Bce- 
гла присутствует в обучении с подкреплением. Однозначного 
ответа на этот вопрос, конечно, нет и быть не может, но для 
многих частных случаев разумный компромисс можно опреде- 
лить и вычислить. Этим мы и будем заниматься в оставшейся 
части главы. 


$ 7.3. Многорукие бандиты 


Будем двигаться от простого к сложному. Первой останов- 
кой на этом пути станут агенты, у которых есть только одно 
состояние. Формально они ничем не отличаются от введённых в 
8 7.1, просто |S| = 1. У такого агента есть фиксированный набор 
действий А и возможность выбора из этого набора действий. 

В искусственном интеллекте общепринята изящная и до- 
ступная для понимания модель поведения такого агента. Пред- 
положим, что агент находится в комнате с несколькими игро- 
выми автоматами («однорукими бандитами», далее — просто 
«бандитами»); в литературе устоялось вынесенное в заголовок 
параграфа название: если объединить нескольких «одноруких 
бандитов», получится один «многорукий бандит» (multi-armed 
bandit). У каждого «бандита» своё, неизвестное агенту ожида- 
ние выигрыша. Агент должен за ограниченное число попыток 
получить максимальную прибыль. 

Отметим, что такая, казалось бы, сильно упрощённая мо- 
дель действительно реализует все возможные ситуации с одним 
состоянием. За каждое предпринятое действие среда даёт возна- 
граждение (возможно, случайное), а затем возвращает агента в 
исходное состояние: результат следующего подхода к «бандиту» 
не зависит от предыдущих. 

Прежде чем перейти к конкретным алгоритмам, рассмотрим 
общие принципы, которые должны руководить агентом в та- 
кой ситуации. Разумеется, хочется применить в каком-то смыс- 
ле «жадную» стратегию, т.е. всегда выбирать стратегию, макси- 
мизирующую прибыль. Однако совершенно очевидно, что агент 
в комнате не знает с самого начала, что ему делать, и не мо- 
жет выбрать самую лучшую стратегию. Более того, даже если 
он уже дёрнул по одному разу за ручку каждого «бандита» и 
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только один раз победил, это вовсе не означает, что нужно те- 
перь всё время выбирать только принесший прибыль автомат. 
Как же соблюсти баланс между изучением окружающей среды 
и использованием уже разработанных стратегий? 

Как ни странно, единый ответ существует. Он вполне логи- 
чен: полезная эвристика в такой ситуации — оптимизм при 
неопределённости. Иначе говоря, выбирать стратегию поведе- 
ния нужно жадно, но при этом следует быть весьма оптими- 
стичным относительно ожидаемой прибыли. Должны быть по- 
лучены серьёзные отрицательные свидетельства, прежде чем та 
или иная стратегия может быть отклонена. 

Чуть позже мы увидим, как эта рекомендация реализуется 
на практике, а пока рассмотрим методы, которые гарантиро- 
ванно находят оптимальное решение или сходятся к нему. 


$ 7.4. Доказуемо оптимальные алгоритмы 


В этом параграфе мы рассматриваем алгоритмы, анализ ра- 
боты которых проводится достаточно несложно и приводит к 
хорошим результатам. Это, правда, вовсе не означает, что мы 
докажем все утверждения о рассмотренных здесь алгоритмах; 
но значительная их часть будет непосредственно очевидной. 

Первая, простейшая постановка будет решена при помощи 
динамического программирования. Принцип динамического про- 
граммирования широко используется для самых различных за- 
дач [16, 170]; его история восходит к самой заре информатики, 
сороковым годам ХХ века [11]. 

Не стало исключением и обучение с подкреплением. Для 
решения этой задачи динамическое программирование можно 
применить, если заранее известен срок жизни агента: предполо- 
жим, что агент действует на протяжении һ шагов. 

Тогда для определения оптимальной стратегии можно ис- 
пользовать несложный байесовский подход. Задача состоит в 
том, чтобы вычислить отображение из всех возможных состо- 
яний опыта, (belief states) агента во множество действий, таким 
образом задав ему стратегию поведения. 

Состояние опыта агента в каждый момент времени мы будем 
записывать как 


S ={(пумт),... (пом), 
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что означает, что каждого «бандита» 1 запустили п. раз, полу- 
чив при этом выигрыш уу; раз (здесь и далее мы считаем, что 
результат бинарный — либо выиграл, либо проиграл). 

Обозначим через V*(S) ожидаемый оставшийся выигрыш 
для состояния с данной историей. Базой для рекуррентных со- 
отношений будет служить случай, когла Th ni = h. В этом 
случае агенту больше нечего делать, и V*(S) = 0. Если же мы 
знаем \* для всех состояний, когда у агента ещё осталось + по- 
пыток, мы сможем пересчитать V* и для состояний с 1-1 остав- 
шейся попыткой: 


V*(n1,w1,. -Mnk Wk) = 


= max (р +У*(...,тц + 1,иң -+Е1,...))+ 
1 
+1 — pi) V*(... ni + Тм...) | 


где р; — апостериорные вероятности того, что действие 1 оправ- 
дается, при данных опыта (ni, wi). Давайте на минутку отвле- 
чёмся и приведём простой, но характерный пример вычисления 
такого рода апостериорных вероятностей. 


ПРИМЕР 7.3. Испытания Бернулли _________—_ 

Постановка задачи проста: у нас имеется последовательность под- 
брасываний монетки, о «честности» которой нам ничего не известно. 
Требуется определить, какова вероятность получить орёл или решку 
в следующем подбрасывании. Задача эта была решена ещё Лапласом; 
правда, в тоглашней формулировке она была куда поэтичнее: «Како- 
ва вероятность того, что завтра снова взойдёт Солнце?» Имеется в 
виду ситуация, в которой мы ничего не знаем о Солнце априори, но 
уже много (по мнению современников Лапласа, около 6000) лет его 
наблюдали. 

Отметим, что это задача с сильным байесовским «лушком»: перед 
нами распределение вероятностей, параметров (в данном случае — од- 
ного параметра) которого мы не знаем, и данные. От нас требуется 
дать прогноз, каким-то образом эти параметры обучив по данным. 

Обозначим вероятность выпадения орла через 4: мы сейчас пы- 
таемся вывести формулу для плотности вероятности #(4). Обозначим 
случайные величины, соответствующие данным — через Х{, а сами pe- 
зультаты — через х; (будем считать, что орёл соответствует единице, 
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а решка — нулю). Тогда, по теореме Байеса, 


(X1 =х1,...,Х = х | 9)р(4) 
Р(Ж1 = жч,... Хи = Хи) | 


plq | Х1 же 


Мы будем считать, что априорное распределение «честности» мо- 
нетки равномерное, то есть пока мы не видели ни одного результата, 
мы вообще ничего не можем сказать о вероятности выпадения орла 
и считаем все такие вероятности одинаково возможными. Это значит, 
что вероятность р(4) тождественно равна 1 для всех 0 < q < 1 и равна 
нулю вне отрезка [0,1]. 

Давайте вычислим правдоподобие q: 


n 
P(X =x... Xn =x q) = [| [a40 -a =а*(1—а)"—°, 
1=1 


где $ — число орлов в имеющихся данных, $ = X1 +... + ха. 

Осталось только подсчитать р(Х1 = ху,...,Х = Xn), то есть 
фактически нормировочную константу. Чтобы вычислить эту веро- 
ятность, нам придётся просуммировать условную вероятность р(Х1 = 
Х1,... Хи = Xn | q) по всем значениям 4; в непрерывном случае, есте- 
ственно, из суммы получится интеграл: 


1 
ОО Ка -| 4°(1— q)" ° dq = сай 
б (т +1)! 
(мы предполагаем, что читателю известно — например, из курса ма- 
тематического анализа, — как брать интегралы вида fx = x)? dx). 
Таким образом, мы получаем формулу для плотности вероятности q: 


| 
а) = МЕ а а)". 

5!(т\ — $)! 
Это так называемое бета-растределение, которое часто появляется в 
статистике, обычно именно как сопряженное априорное распределение 
для испытаний Бернулли. Нас сейчас интересует только математиче- 
ское ожидание вероятности следующего орла. 


—81(п- $)! 


5+1 7—5 Е КЕТ 
я (1—9) а ете (п + 2)! o n+? 
Получилось, что в случае, когда мы вообще ничего заранее He 3Ha- 
ем заранее, слелующего орла после получения последовательности из 
$ орлов и п — $ решек можно ожидать с вероятностью ат. В частно- 
сти, если данных вообще нет, эта вероятность равна 2. Что и логично. 


(т + 1)! [ (п+1)! (6 1)1( 5) $+1 
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Рупаш1 сВе1иФогсемет (И.К): 
1. Инициализировать таблицу 


h 
{v* (ni ‚мМт,... MkW) In; ‚ум, =1' 


2. Для всех элементов, для которых y ni > h, 
присвоить V*(n1,w1,... Nk Wk) := 0. 
3. Для всех t от h до 0: 
а) Для всех элементов, для которых 8, ni=t, 
присвоить 


:= тах; у (1 +V*(...mi+1,wi+1,...))+ 
+ (1 У) УЧ... +1, 2)}. 
4. На каждом шаге с данным фиксированным со- 


стоянием опыта (п1,м1,... ,Nk;Wk] выбирать дей- 
ствие 1, для которого достигается 


maxi {HH (1+ У*(.. тц Т +1,...))+ 


+ (т RH) У". mtw. )}. 


д. 


Рис. 7.3. Динамическое программирование для 
обучения с подкреплением 


Таким образом, в случае с испытаниями Бернулли в виде 
«одноруких бандитов» 


м +1 
ИБ ni +2‘ 


Получившийся алгоритм представлен на рис. 7.3. Как видно, 
он получился не слишком-то эффективным: цена построения 
такой таблицы линейна от произведения числа состояний опыта 
на число действий |A|, что экспоненциально зависит от h. Иначе 
говоря, динамическое программирование можно использовать 
только в случаях, когда нужно планировать не слишком далеко. 
Но зато такой подход гарантированно приводит к оптимальной 
стратегии. 
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Читатель, наверное, уже обратил внимание, что предвычис- 
ленная таблица У“ совершенно не зависит от конкретной ситуа- 
ции — её можно подсчитать хоть раз и навсегла, а от конкретных 
ожиданий выигрыша конкретных «одноруких бандитов» зави- 
сеть будет только путь по этой таблице, который изберёт оп- 
тимальная стратегия. Может быть, можно сделать всё заранее, 
один раз, а потом брать значения из таблицы? Да, можно. 

Пусть мы уже п раз дёрнули за ручку какого-то «бандита» и 
получили W единичек. Существуют предвычисленные таблицы 
индексов Гиттинса (Gittins allocation indices) I(n,w), которые 
учитывают как ожидаемую прибыль, так и количество новой 
информации, которую мы получим, если предпримем это дей- 
ствие ещё раз. Таким образом, оптимальная стратегия крайне 
проста: достаточно выбирать «бандита», для которого I(n,w) 
максимален. 

Индексы Гиттинса работают отлично, но, к сожалению, пока 
не обобщаются — их аналоги для нескольких состояний агента 
неизвестны. 

Третий приём из тех, анализ которых провести достаточно 
просто, связан с «тренировкой» оптимальной стратегии. Дей- 
ствительно, в модели с комнатой с «однорукими бандитами» 
любой алгоритм можно представить как набор вероятностей, 
с которыми он выбирает то или иное действие (всё остальное 
не важно для конечного результата). И эти вероятности мож- 
но тренировать примерно так же, как мы в Главе 3 трениро- 
вали перцептроны. Алгоритм линейного вознаграждения- 
бездействия (linear reward-inaction algorithm) линейно увели- 
чивает вероятность действия Qi, если оно привело к успеху: 


р: = pi+ a(l -— pi), 
р; = pj- apj, ) #1. 


Если же действие безуспешно, вероятности сохраняются. В этих 
формулах х — константа, задающая скорость обучения (вспом- 
ните аналогичную константу в алгоритмах обучения нейронных 
сетей). Алгоритм представлен на рис. 7.4. 

Алгоритм линейного вознаграждения-бездействия с вероят- 
ностью 1 сходится к вектору, в котором только одна единичка, 
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11пеагВемага1пас%1оп (©): 
1. Случайно инициализировать вероятности Pi. 
2. Пока агент продолжает работу: 
а) Выбрать действие 1 с вероятностью р{. 
6) Если действие привело к успеху: 


pi := pi+all-— pi), 
р) = р-р } #1. 


Рис. 7.4. Алгоритм линейного вознаграждения-бездействия 


а остальные компоненты — нули. Он не всегда сходится к опти- 
мальной стратегии; вполне вероятно, что не очень удачные пер- 
вые попытки предопределят сходимость к неоптимальной стра- 
тегии. Но вероятность ошибки у этого алгоритма можно сделать 
сколь угодно малой, уменьшая X. 


$ 7.5. Другие стратегии 


В этом параграфе мы рассмотрим две стратегии. Первая из 
них — типичный представитель случайных стратегий, а вто- 
рая — представитель «оптимистично-жадных» методов, кото- 
рых мы уже коснулись в $ 7.3. 

Простейшая случайная стратегия выбирает действие с наи- 
лучшей ожидаемой прибылью с вероятностью р, а с вероятно- 
стью 1 — р выбирает какое-нибудь другое случайное действие. 
Обычно, для того чтобы сначала исследовать побольше разных 
вариантов, а впоследствии — почаще использовать найденную 
оптимальную стратегию, начинают с малого р и постепенно его 
увеличивают. Очевидный минус этого подхода в том, что ал- 
горитм не отличает хорошую неоптимальную альтернативу от 
плохой, выделяя только оптимальную стратегию. 

В принципе понятно, как исправить этот недостаток — нуж- 
но снабжать разные стратегии вероятностями, которые тем боль- 
ше, чем больше ожидаемая выгода от данной стратегии. Но 
при этом нужно обеспечить тот же эффект, что и раньше: сна- 
чала давать больший вес исследованиям окружающей среды, 
а со временем переходить на следование оптимальному кур- 
су. Элегантное решение приходит из... статистической физики. 
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Этот метод так и называется — исследование по Больцмамну! 
(Boltzmann exploration): 


eER(a)/T 


pla) T Е еЕЕ(а')/Тт’ 


где ЕҢ — ожидаемая прибыль, а Т — параметр, отвечающий 
за соотношение исследования и оптимального поведения (этот 
параметр называется температурой — в аналогичном уравне- 
нии статистической физики именно температура отвечает за то, 
). Как и в предыдущей стратегии, во время исследования по 
Больцману температура обычно понижается со временем. 

Теперь давайте рассмотрим один из самых естественных спо- 
собов применить оптимистично-жадный метод. Предположим, 
что для каждого действия мы храним статистику п (общее ко- 
личество испытаний) и W (количество успехов), а потом хотим 
найти оптимистичную границу доли успехов в испытаниях. 
Как это сделать? 

Разумеется, первый приходящий на ум статистический ап- 
парат — доверительные интервалы. Они и лягут в основу 
нашего оптимистично-жадного метода. Возьмём доверительный 
интервал для вероятности успеха испытаний с границей 1 — <, 
а для выбора стратегии будем использовать верхнюю границу 
этого интервала. 


ПРИМЕР 7.4. Пример вычисления доверительных интервалов 
Рассмотрим испытания Бернулли (подбрасывание монетки). Тогда 
с вероятностью 0,95 среднее лежит в интервале 


$ S 
КЕ а | 
(х уа" 55) 


1Людвиг Эдуард Больцман (Ludwig Eduard Boltzmann, 1844-1906) — 
австрийский физик, основатель статистической механики и молекулярно- 
кинетической теории. Его жизненный путь был сложным: он начинал в 
университете Граца, позже читал публичные лекции по философии, кото- 
рыми интересовался сам император, но к концу жизни оказался подвержен 
депрессиям — увы, человеку науки трудно их избежать. Один из приступов 
депрессии закончился трагично: Больцман покончил жизнь самоубийством. 
Разумеется, он не имел никакого отношения к обучению с подкреплением — 
но путь идей причудлив, и уравнения, которые мы здесь приводим, весьма 
схожи с уравнениями статистической физики. 
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„ > TA 1 (х:=%)2 
где п — число испытаний, $ = рек ее 


функцией от 0,95 и берётся из таблиц классического распределения 
Стьюдента1 [178,179]. 


‚ а константа 1,96 является 


§ 7.6. Поиск стратегий в известной модели 


В этом параграфе мы наконец-то перейдём от «многоруких 
бандитов», которые являются полезной, но всё же в большин- 
стве случаев недостаточной абстракцией, к реальной ситуации: 
несколько состояний, функция вознаграждения, зависящая от 
состояния, и вероятностные переходы между состояниями. Нач- 
нём с основного определения. 


ОПРЕДЕЛЕНИЕ 7.1. Марковский процесс принятия реше- 
ний (Markov decision process) состоит из: 


— множества состояний 5; 

— множества действий А; 

— функции поощрения К: $ x A — R; 

— функции перехода между состояниями 


Т: $ хА 1П(5), 


где П($) — множество распределений вероятностей над 
$. Вероятность попасть из $ в 5' после а равна Т(5,а,5'). 


Слово «марковский» здесь, как и во всей теории вероятно- 
стей, означает, что вероятности переходов между состояниями 
не зависят от истории предыдущих переходов. Действительно, 
на вход функции Т предылущих состояний агента не подаётся. 
Агент должен за время своей работы выбрать оптимальное по- 
ведение, не зная заранее модели. 


Уильям Госсет (William Sealy Gosset, 1876-1937) — английский стати- 
стик. Госсет был учеником Карла Пирсона (того самого, чей тест), но ра- 
ботал не в биометрии, как Пирсон, а в знаменитой пивоварне «Guinness 
& боп». Воясь разгласить важные ноу-хау, Гиннесс запретил своим работ- 
никам что бы то ни было публиковать. Госсет, конечно, всё равно тайком 
публиковал свои результаты, но для этого ему пришлось использовать псев- 
доним Student. Поэтому его самый важный результат мы знаем как «рас- 
пределение Стьюдента», а не «распределение Госсета». 
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Но давайте на минутку предположим, что мы уже точно 
знаем нашу модель. Задача от этого вовсе не становится триви- 
альной: всё ещё нужно отыскать оптимальную стратегию пове- 
дения для агента в этой модели. В реальной ситуации, конечно, 
мы модель не знаем, но давайте сначала решим первую задачу, 
ведь без неё все равно вряд ли получится вторая. 

Введём ещё одно важное определение; здесь и далее мы бу- 
дем оперировать в рамках модели бесконечного горизонта. 


ОПРЕДЕЛЕНИЕ 7.2. Оптимальное значение состояния — 
это ожидаемая суммарная прибыль, которую получит агент, ес- 
ли начнёт с этого состояния и будет следовать оптимальной 
стратегии: 


со 
М [= = шахЕ У үт 
+=0 


Оптимальное значение состояния можно определить как ре- 
шение уравнений 


* = / * ГА 
У" (s) = шах | R(s,a) и )М*($') 


Если знать оптимальные значения состояний, то задача ста- 
новится практически тривиальной: чтобы получить оптималь- 
ную стратегию, достаточно вычислить 


п*($) = argmaxaca | В(з,а) +y У Т(з,а,5”)У*(5”) 
s'ES 


Таким образом, вопрос об оптимальном поведении C известной 
моделью фактически свёлся к вопросу о том, как решать выше- 
приведённые уравнения. Рассмотрим несколько вариантов. 
Как известно из теории вычислительных методов, решения 
сложных уравнений обычно ищут итеративными методами; это 
идеально сходится с общей концепцией машинного обучения, и 
именно так мы и поступим. Первый вариант — итеративное ре- 
шение по значениям: мы будем искать оптимальные значения 
состояний простым итеративным алгоритмом (рис. 7.5). 
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ValueIteration(œ): 


1. Инициализировать V(s). 
2. Пока стратегия недостаточно хороша: 
а) для всех 5 ебиае ‘А 


О (5,а) := R(s,a) +у У Т($,а,5')\(5'); 
5'Є5 
6) \(5) := maxa Q(s,a). 


Рис. 7.5. Алгоритм итерации по значениям 


Недостаток алгоритма на рис. 7.5 состоит в том, что пересчёт 
в нём использует информацию от всех состояний-предшествен- 
ников. Поэтому можно рассмотреть другой, так сказать, «сто- 
хастический» вариант: 


О (5, а) := Q(s,a) + а (r + y max Q(s',a’) — оа) | 


Доказано, что модифицированный таким образом алгоритм схо- 
дится к правильным значениям, если каждая пара (s,a) встре- 
чается бесконечное число раз, $’ выбирают из распределения 
Т($,а,5”), ат сэмплируют со средним К($,а) и ограниченной Ba- 
риацией. 

Несмотря на то, что вышеприведённые алгоритмы сходятся, 
они могут сходиться достаточно медленно; кроме того, нет чёт- 
кого критерия остановки алгоритма. Возможно, было бы лучше, 
если бы мы на каждом шаге улучшали не функции значений, а 
саму стратегию, ведь стратегий всего конечное число (не боль- 
ше, чем |А|5!). Критерий остановки тогда тоже был бы ясен: 
как только стратегия перестаёт изменяться, можно останавли- 
ваться. Такой алгоритм тоже можно построить — это несложная 
модификация предыдущего. Он приведён на рис. 7.6. 


$ 7.7. Поиск оптимальных стратегий без модели 


Научившись полностью решать простой случай, когла мо- 
дель известна заранее и полностью, теперь можно перейти к 
более реалистичным случаям — когла модель нужно строить с 
нуля. Можно выделить два основных подхода к решению этой 
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PolicyIteration(œ): 
1. Инициализировать т. 
2. Повторять следующие инструкции. 
а) Вычислить значения состояний для стратегии 
п, решив систему линейных уравнений 


Ул(в) = В($,л(5)) +y У Т(5,л(5),5”)Ул(5”). 
$25 
6) Улучшить стратегию на каждом состоянии: 


т’ ($) := агетах. | В(з,а) НУ 3 Т($,а,5”)\Ул(5”) 
s'ES 
в) Если л 5 п’, повторить, иначе закончить. 


Рис. 7.6. Алгоритм итерации по стратегиям 


задачи. В первом из них мы ищем только стратегию, не пыта- 
ясь в явном виде выяснять, каков мир вокруг нас, а во втором 
также параллельно формируем и обучаем модель ситуации, в 
которой оказался агент. 

Характерный представитель первого подхода — так называ- 
емый адаптивный эвристический критик (adaptive heuristic 
critic). Основная идея проста: пусть один элемент алгоритма 
ищет стратегию, а другой — функцию значений, и пусть они 
друг с другом в этом соперничают. Такой метод читателю уже 
знаком: в $ 6.5 мы рассматривали алгоритм ЕМ, состоящий из 
двух частей, из которых одна ищет скрытые параметры, а дру- 
гая переобучает гипотезу на основе этих параметров. 

В контексте обучения с подкреплением роль Е- и М-шагов 
выполняют два компонента: критик (АНС, от слов «adaptive 
heuristic critic») и компонент обучения с подкреплением (RL, 
от слов «теіпѓогсетепі learning»). На месте RL может быть лю- 
бой алгоритм обучения с подкреплением для решения задачи 
о К «бандитах». Задача RL — максимизировать значение эври- 
стики V, вычисляемой критиком. А критик АНС в это время 
использует полученное от RL значение для пересчёта ожидае- 
мых значений прибыли от состояний. 
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Легче всего представить себе работу адаптивного эвристиче- 
ского критика, вообразив, будто это происходит по очереди: сна- 
чала мы фиксируем стратегию л и подсчитываем функцию зна- 
чений Ул. Затем фиксируем Vr и учим новую стратегию т’, KO- 
торая максимизирует Ул, и так далее. Точь-в-точь ЕМ-принцип, 
только вероятности здесь скрыты чуть поглубже. 

Лавайте сначала займёмся вопросом о том, как формировать 
функцию значений по стратегии. 

Начнём с того, что опыт, который получает агент в течение 
своей жизни, нужно как-то структурировать. Мы будем пред- 
ставлять его в виде набора так называемых кортежей опыта 
(experience tuples) 

(5,а,т,5”), 
где $ — состояние перед переходом, а — действие, т — получен- 
ное поощрение, $’ — следующее состояние. Данные т и 5', вообще 
говоря, являются функциями от а и $, но функции эти случай- 
ные, и агенту для успешной работы как раз и неплохо было бы 
найти параметры этих распределений. 

Такой кортеж полностью содержит всю новую информацию, 
которую агент получает после очередного действия (вспомним, 
что у нас марковские процессы, и история предыдущих действий 
и поощрений не важна). 

Правила, которыми пользуется адаптивный эвристический 
критик для пересчёта функции значений при получении нового 
опыта, обычно имеют вид ТО(Л), где А, определяет, насколько 
«глубоко» будет воздействовать каждое изменение на ранее по- 
сещённые состояния. Определим сначала простейшую версию 
такого правила — TD(0): 


\($) := V(s) + о (r +yV(s')— (5) Е 


Здесь, как и раньше, ү — константа, отличающая прибыль 
сейчас от прибыли на следующем шаге, а х — константа обуче- 
ния. Смысл правила TD(0) заключается в том, чтобы обновить 
функцию значения (фактически — ценность) состояния, из ко- 
торого был совершён переход, на основании того, куда агент 
попал в результате. Если агент смог попасть в хорошее место, 
функция значения увеличивается, если в плохое — функция зна- 
чения уменьшается. 
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Очевидно, что при помощи той же самой логики можно сде- 
лать и следующий шаг: заглянуть на несколько ходов вперёд. 
Иначе говоря, если мы сейчас смогли попасть в очень хорошее 
состояние, которое принесло нам много «денег», то это должно 
увеличить не только ценность непосредственно предшествующе- 
го ему состояния, но и состояний, которые были раньше — ведь 
из них тоже можно попасть в это замечательное место, просто не 
за один ход, а за несколько. Но при этом, конечно, нужно вво- 
дить какие-то понижающие коэффициенты: чем дальше путь, 
тем больше вероятность, что пройти его не удастся (напомним, 
что переходы между состояниями в общем случае тоже вероят- 
ностные), да и приз при временном удалении тоже уменьшается. 

В этом и заключается суть семейства стратегий ТО(Л). В 
общем виде правило ТО(Л) выглядит как 


V(u) := V(u) + х (| + үМ№(5') — М) Е (14). 


При этом правило Т0(0) после очередного шага применяется K 
каждому состоянию и, но модифицируется за счёт коэффици- 
ента применимости (eligibility) є(и): 
$ 
els) = У (лу) 5 = sk, 
k=1 
где [$ = $] = 1, если $ = Sk, и 0 в противном случае. Здесь 
[5 = 5к] — пример так называемой нотации Айверсона — весь- 
ма изящного инструмента, позволяющего более компактно запи- 
сывать очень многие факты в дискретной математике. Попыт- 
ку её популяризировать недавно предприняли авторы известной 
книги «Конкретная математика» [169]. Для обозначения равен- 
ства двух величин подошла бы, конечно, и дельта Кронекера! 


1 Леопольд Кронекер (Leopold Kronecker, 1823-1891) — немецкий логик 
и математик. Как логик Кронекер известен своими финитарными взгля- 
дами на математику, которые сделали его предтечей интуиционизма. По 
мнению Кронекера, «Господь Бог создал целые числа; всё остальное — де- 
ло рук человеческих»; известно, что когда Линдеманн представил своё до- 
казательство трансцендентности л, Кронекер поздравил его с блестящим 
доказательством, но тут же добавил, что оно ничего не доказывает, ведь 
трансцендентных чисел не существует. Такие взгляды привели Кронекера к 
серьёзным спорам со своим учеником Георгом Кантором, создателем теории 
множеств, и Вейерштрассом, который исповедовал функциональный взгляд 


254 Глава 7. Обучение с подкреплением 


65, = [5 = 51], но нотация Айверсона позволяет, во-первых, не 
вводить новых букв (5 — не такая уж редкая буква в матема- 
тике, чтобы закреплять её за дельтой Кронекера), а во-вторых, 
может содержать любое логическое условие, не обязательно ра- 
венство. 

Применимость зависит от того, насколько часто это состоя- 
ние посещалось в недавнем прошлом. Если А = 0, ТО(Л) — это 
ТО (0) (при условии, конечно, что 00 = 1). 

Отметим, что применимость можно также пересчитывать в 
реальном времени, после каждого шага, не вычисляя всю сумму 
заново. Пересчёт можно вести по формуле 


є(5) := УЛе($) + [s = текущему состоянию). 


Теперь осталось только понять, как мы будем пересчитывать 
стратегии. Для этого введём набор весов м›($,а), соответству- 
ющих действиям а, которые можно предпринять в состоянии 
$. Веса будут определять вероятность, с которой мы выбираем 
следующее действие; вероятности будут зависеть от весов экс- 
поненциально (или, с другой стороны, веса, как это очень часто 
бывает, будут представлять собой логарифмы вероятностей): 


e™(s,a) 


5 Ж еу(5,9/) ү 


Эти веса мы будем обучать при помощи той же техники, что и 
раньше — при поступлении кортежа опыта ($,а,т,5”) 


w(s,a) := м ($, а) + В(т + У\($') — М(5)), 


где В — константа обучения, возможно, отличная от X. Суть 
адаптивного критика в том, что мы в этой формуле используем 
значения V, полученные тут же при помощи того же обучающе- 
roca алгоритма. На рис. 7.7 показана схема алгоритма адаптив- 
ного эвристического критика. 

Вариантом адаптивного эвристического критика является 
так называемое О-обучение (Q-learning). Оно работает примерно 
на тех же принципах, что и адаптивный эвристический критик, 
но вместо функции значения \($) мы рассматриваем функцию с 


р(а|5) = 


на веши. В математике Кронекеру принадлежат значительные результаты 
в теории чисел, теории эллиптических функций и высшей алгебре. 


& 7.7. Поиск оптимальных стратегий без модели 255 


AdaptiveHeuristicCritic(«,ß): 
1. Инициализировать є($), V(s), w(s,a) для каждого 
состояния $ и действия а. 
2. Для каждого кортежа опыта ($,а,т,5’): 
а) Для каждого состояния U 
elu) := үлє(и) + [lu = s]. 
6) Для каждого состояния U 
У(м) := У(м) + «(т + У\(5') — V(s))e(u). 
в) w(s,a) := w(s,a) + B(r +YV(s’)— М(5)). 
г) Выбрать в качестве следующего действия слу- 
чайное действие а’ по распределению 
ем’, а’) 


/ А 
р(а ) Ет у „е874)' 


Рис. 7.7. Адаптивный эвристический критик 


двумя параметрами Q*(s,a) — ожидаемую оптимальную Harpa- 
ду за действие а в состоянии $ (здесь и далее Q* и У* обозначают 
оптимальные значения Q и У). Функция О отличается от V тем, 
что зависит от двух параметров; зная О, нетрудно получить У: 


\У*(а) = шах О*($,а). 


Если О*(5,а) известны, то можно легко найти оптимальную 
стратегию: 
7” ($) = агртах О” ($, а). 
А если подставить в описанные в предылущем параграфе 
формулы О* вместо \У*, то можно получить и уравнения на 


Q*(s,a): 
Q*(s,a) = В(5,а) +у У Т(з,а,5') max Q*(s',a’). 
s'ES а 
Идея самого алгоритма точно такая же, но мы храним и обу- 


чаем не У, а О. Правило обучения не отличается от адаптивного 
эвристического критика: 


© (5 а) := Q(s,a) + a(r + ушах О(5',а') — Q(s,a)), 
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QLearning(a): 
1. Инициализировать Q(s,a) для каждого состоя- 
ния $ и действия а. 
2. Для каждого кортежа опыта (s,a,r,s’): 
а) обновить значения О($,а): 


Q(s,a) := Q(s,a) + «(т + ушах О ($, а’) — О(ѕ,а)); 
а 
6) выбрать в качестве следующего действия 


п($') = атвтах. О ($, а). 


Рис. 7.8. Алгоритм О-обучения 


где ($,а,т,5”) — кортеж опыта. Схема представлена на рис. 7.8. 

И для адаптивного эвристического критика, и для О-обу- 
чения доказано, что соответствующие алгоритмы со временем 
сходятся к правильным значениям [77, 150] (ещё быстрее схо- 
длится вариант О-обучения — отложенное О-обучение, delayed 
Q-learning [149]); однако эти доказательства мы здесь рассмат- 
ривать не будем. 


$ 7.8. Поиск моделей и оптимальных стратегий по ним 


Последним подходом к обучению с подкреплением, который 
мы рассмотрим, станет подход, при котором алгоритм одновре- 
менно и поддерживает модель окружающего мира, и ищет оп- 
тимальную стратегию. 

Первым на ум приходит алгоритм, который сначала какое-то 
время занимается исследованиями, обновляя модель окружаю- 
щего мира, а затем пользуется полученной моделью для выбора 
оптимальной стратегии. Недостатки такого подхода очевидны: 
во-первых, когла можно с уверенностью сказать, что пора оста- 
новиться? Нужно проводить какую-то границу между обучени- 
ем и действием, и гле именно её проводить — априори совер- 
шенно не понятно. Во-вторых, сбор данных может быть весьма 
неэффективен: ведь чтобы проверить, как то или иное состояние 
реагирует на все возможные действия, нужно их все предпри- 
нять, причём в вероятностной ситуации — не по одному разу. И, 
в-третьих, в реальных задачах часто возникают ситуации, когла 


& 7.8. Поиск моделей и оптимальных стратегий по ним 257 


обучающемуся алгоритму нужно уметь подстраиваться под ме- 
няющуюся окружающую среду. Если окружающая агента среда 
вдруг изменится, когда он уже завершил обучение и находит- 
ся на стадии действия, он этого не заметит и будет продолжать 
работать по старой неэффективной программе. 

Будем действовать примерно так же, как и в предыдущем 
параграфе — будет одновременно строить модель по получаемо- 
му опыту, а по текущему состоянию модели — оптимизировать 
стратегию. 

Один из самых успешных алгоритмов, которые действуют 
таким образом, называется Dyna. При подаче на вход кортежа 
опыта ($, а.т,5”) Dyna сначала обновляет модель, добавив стати- 
стику для перехода из $ в $’ под действием а и для получения 
награды за а в состоянии S. Тем самым в алгоритме поддержи- 
ваются в явном виде функции Ти R — выведенные из опыта 
модели реальных функций перехода и вознаграждения Т и К. 

Затем, обновив модель, Пупа обновляет стратегию в состоя- 
нии S: 


Q(s,a) := R(s,a) +у»_1(5,а,5') max О(5/,а”). 
s’ н 

Но этого оказывается недостаточно: изменившаяся модель 
влияет не только на это состояние, и если мы будем менять 
только его, то нам придётся обучаться слишком долго, прежде 
чем агент сможет приблизиться к целевым функциям. Поэто- 
му "Рупа заранее выбирает К (в зависимости от имеющихся вы- 
числительных ресурсов — чем их больше, тем большим можно 
брать К) и делает ещё К обновлений для К случайно выбранных 
пар (5к,ак): 


О (5как) := как) +y У 1(вк,ак,5”) шах Q(s’,a’). 
57 

Затем выбирается оптимальное действие а’! в новом состо- 
янии $’ на основе значений О (возможно, исправленных стра- 
тегией изучения среды — на начальном этапе, как и в преды- 
дущих алгоритмах, имеет смысл немножко «подкрутить» алго- 
ритм так, чтобы он предпочитал исследование новых возмож- 
ностей), и это действие даёт новый кортеж опыта, на котором 
цикл повторяется. 
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Dyna(k): 
1. Инициализировать 
Т(,а,5'), R(s,a), Q(s,a), п(з,а), n{s,a,s’) 

для всех состояний $, $' и действия а. 

2. Для каждого кортежа опыта (s,a,r,s’): 
а) п(5,а) := п($,а) + 1, п($,а,5') := п($,а,$') +1. 

-R 

6) R(s,a) := R(s,a) + "ты. 
в) Для каждого состояния U 


= 51 Т 
Т(8,а,ш) := T(s,a,u) 4 _ и зи 


г) Обновить стратегию: 
Q(s,a) := R(s,a) Ну» Т(з,а,5”) max О(5/,а”). 
/ а! 
5 
д) Для тот 1 до К: 
(1) Выбрать случайную пару (si, ai). 
(1) Обновить стратегию: 


О(51,а1) := В(зъай) +y У Т(ѕ,а,') шах О (5',а’). 
а 
s’ 
е) Выбрать в качестве следующего действия 


п(5') = агатах„О($5',а). 


Рис. 7.9. Алгоритм Dyna 


Схема алгоритма приведена на рис. 7.9. Для хранения дан- 
ных об уже полученном опыте используются вспомогательные 
счётчики п($,а) и п(5,а,5') — переменные, в которых записано, 
сколько раз алгоритм выбирал действие а в состоянии $ и сколь- 
ко раз переходил после этого в состояние S’ соответственно; эти 
счётчики в начале работы программы инициализируются нуля- 
ми. 

Dyna работает хорошо, но она бесцельна: обновляет случай- 
ные пары. Улучшенный алгоритм, так называемый алгоритм 
«уборки по приоритетам» (prioritized sweeping) делает то же, но 
у каждого состояния есть приоритет, и для каждого состояния 
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PrioritizedSweeping(k): 
1. Инициализировать 
Т(,а,5'), R(s,a), V(s), п(5,а), n(s,a,s’), pr(s,a) 
для всех состояний $, $' и действия а. 
2. Для каждого кортежа опыта (s,a,r,s’): 
а) п(5,а) := п($,а) + 1, п($,а,5') := п($,а,$') + 1. 
-R 
6) R(s,a) := R(s,a) + DRAN, 
в) Для каждого состояния U 
lu = s'] — Т(5,а;и) 


Т($, ам) := T(s,a,u) 4 а. 


г) Выбрать К пар с максимальными рт($,а): 
(ва). 
д) Для ior 1 до К: 


(i) Vora := (81). 
(1) Обновить значения состояний: 


= шах кутами) р 


s’ 
(ш) рт(5{,а{) := 0. 
(iv) Для всех состояний 5 и действий а 
pr(s,a) := рт(ѕ,а) + |Vora — У(5{)Т(5,а,5{). 


е) Выбрать в качестве следующего действия 


п($') = атетах а + F Tis auvi) . 


Рис. 7.10. Алгоритм уборки по приоритетам 


запоминаются его предшественники — состояния, из которых 
можно попасть в это состояние с ненулевой вероятностью. 
Алгоритм поддерживает точно такую же статистику, как и 
Dyna, но значения теперь присваиваются состояниям, а не парам 
(состояние, действие), и вместо К случайных пар обновляются 
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значения К наиболее приоритетных. Потом приоритеты обнов- 
лённых пар обнуляются (чтобы поддерживать ротацию), а уве- 
личиваются приоритеты тех состояний, из которых можно по- 
пасть в состояния, которые только что обновились. Но не просто 
увеличиваются, а увеличиваются пропорционально изменению 
функции \. 

Это приводит к интересному и разумному эффекту. Суть 
в том, что когда V изменяется значительно, это значит, что 
текущее действие принесло много информации, результат его 
был весьма удивительным для нашего агента. И в этом слу- 
чае алгоритм старается как можно быстрее распространить эту 
новую информацию предкам «интересного» состояния. А если 
действие принесло тот результат, который и ожидался, то HO- 
вой информации мало, и нет большого смысла торопиться её 
распространять. Формальная схема алгоритма изображена на 
рис. 7.10. 

Практические тесты показывают, что алгоритм уборки по 
приоритетам требует для сходимости наименьшего числа итера- 
ций, но при этом каждая итерация требует значительно более 
серьёзных вычислительных ресурсов, чем Dyna [77]. Что пред- 
почесть при реализации, может определить только конкретная 
постановка задачи. Если агент может безболезненно пробовать, 
ошибаться и учиться, но при этом обладает не слишком мощным 
вычислительным аппаратом, Dyna, возможно, лучше подойдёт 
для решения задачи; а если время обучения ограничено жёстко, 
то стоит предпочесть алгоритм уборки по приоритетам. 


$ 7.9. Игрушечный пример О-обучения и Dyna 


В этом параграфе, завершающем главу, мы привелём при- 
мер реального программного кода, реализующего О-обучение и 
алгоритм Dyna, о которых мы говорили в предыдущих парагра- 
фах. Для этого давайте сначала опишем ту постановку задачи 
(весьма игрушечную, конечно), в которой будут действовать эти 
алгоритмы. 

Предположим, что на небольшом поле (у нас поле будет раз- 
мера 10 x 10, но это не принципиально) находятся несколько 
существ (их у нас будет 20, но это тем более не принципиаль- 
но). Мы хотим обучить существа атаковать друг друга (или, 
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Рис. 7.11. Зона видимости агента 


наоборот, говорить добрые слова — это, опять же...). Иначе го- 
воря, у каждого существа есть четыре возможных действия: 


АСТ_МОУЕТЕЕТ — сдвинуться налево; 
АСТ_МОУЕВТОНТ — сдвинуться направо; 
АСТ_МОУЕРОВМАВР — сдвинуться вперёд; 
АСТ_АТТАСК — атаковать. 


При сдвиге налево, направо или вниз агент соответствую- 
щим образом поворачивается; положение «вперёд» отсчитыва- 
ется от текущей ориентации агента. 

Мы признаём атаку удачной, если агент выбрал действие 
АСТ_АТТАСК в момент, когда непосредственно перед ним стоит 
другой агент; в этом случае мы будем прибавлять ему награду 
ВЕМАВО_АТТАСК (у нас она будет равна 10), а тому, кого он атако- 
вал, прибавим награду ВЕМАВО_АТТАСКЕР (она, разумеется, будет 
отрицательной: —5). 

Приведём для начала вспомогательный файл сопзбапіз.ру, 
в который вынесены константы и вспомогательные процедуры. 
Чтобы не загромождать книгу, мы опустили тексты несколь- 
ких совсем уж технических процедур. Суть функций іпсх, decx, 
їпсу и десу в том, чтобы вывести увеличенные или уменьшен- 
ные на заданную величину координаты по осям х и у нашего 
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поля (это не вполне тривиально, потому что для простоты IO- 
ле представляет собой поверхность тора, на котором нет ника- 
ких границ). Функция withinsight определяет «зону видимо- 
сти» агента: она выдаёт, как агент в точке (х,у) видит агента, 
находящегося в точке (x1,Y1); возможны варианты C_SEE_AHEAD, 
С_ЗЕЕ_ТЕЕТ, С_ЗЕЕ_ВТСНТ, С_ЗЕЕ_ВЕНТМО и С_ЗЕЕ_НЕВЕ (см. зоны 
видимости агента на рис. 7.11). 


Листинг 7.1. Файл constants .ру стимулируемого обучения 
МАРУТОТН, МАРНЕТСНТ = 10, 10 

М = 20 

МОУЕЗРЕВТТМЕОМТТ = 100 


ALPHA, GAMMA, ПУМА_К = 0.05, 0.8, 100 
ВЕМАВО_АТТАСК, ВЕМАВО_АТТАСКЕР = 10, -5 


АСТТОММОМВЕВ = 4 
АСТ_МОУЕГЕРТ, АСТ_МОУЕВТСНТ 
АСТ_МОУЕРОВМАВО, АСТ_АТТАСК 


Ш 
о 
о e 


C_SEE_NONE = -1 
C_SEE_AHEAD = О 
C_SEE_LEFT = 1 

C_SEE_RIGHT = 2 


C_SEE_BEHIND = 3 
C_SEE_HERE = 4 
CONFIGNUMBER = 2 << (C_SEE_HERE + 1) 


DIR_TOP, DIR_LEFT, DIR_DOWN, DIR_RIGHT = 0, 1, 2, 3 


def calcConfig (seeing): 

config = 0 

pow2 = 1 

for i in xrange(C_SEE_HERE + 1): 
if (вее1п [1] > 0): 

config += pow2 * seeingli] 

pow2 = pow2 << 1 

return config 


def seeingByConfig(config): 
c = config 
seeing = [0] * (C_SEE_HERE+1) 
for і in хгапре (С_ЗЕЕ_НЕВЕ+1): 
if (с & 1): seeingli] = 1 
с=с >> 1 
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return seeing 


def incx(x, step=1): 
def incy(x, step=1): 
def decx(x, step=1): 


def decy(x, step=1): 
# Эти функции увеличивают и уменьшают координаты 
# с учётом топологии торической доски. 


def withinsight(x, y, x1, y1): 
# Результат этой функции показывает, видна ли для 
# существа, находящегося в точке (х, у), точка 
# (x1, y1), и если видна, то где именно. 


def performMoveAction(cr, action): 
# Эта процедура перемещает существо (учитывая 
# в том числе и направление, куда оно смотрит). 


Состояний у наших существ-агентов довольно много, целых 
32, ведь нужно учесть все возможные комбинации того, вид- 
ны ли другие существа спереди, сзади, слева, справа и прямо 
на том же месте. Однако обучаются агенты с тридцатью двумя 
состояниями на удивление быстро; дело ещё и в том, что неко- 
торые состояния выпадают очень редко, и хорошо их обучать и 
не обязательно, и не получится. 

Теперь — основной файл, в нём реализована основная логи- 
ка эксперимента. Отметим техническую деталь: мы использова- 
ли систему модулей рурате!, предназначенных для разработки 
компьютерных игр на Python; правда, использовали только для 
обработки клавиатуры. Структура программы достаточно про- 
зрачна; половина агентов обучаются по методике С-обучения, 
а половина — по алгоритму Пупа (можно ещё сравнивать их 
с агентами, которые случайно выбирают своё следующее дей- 
ствие). 


Thttp://www . pygame . org/. 
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Листинг 7.2. Файл main.py стимулируемого обучения 


import math, random, constants, pygame 
from constants import * 

from random import random, randrange 
from pygame.locals import * 


# Класс, описывающий одно существо 
class Сгеафиге(): 


def __init__(self, id, x, у): 
self.id, self.x, self.y, self.dir = id, x, y, DIR_TOP 
self.totalreward = 0 
self.Q, self.R, self.n = 1], 0, O 
for і in xrange(CONFIGNUMBER) : 
self.Q.append( [1] * ACTIONNUMBER ) 
self.R.append( [1] * ACTIONNUMBER ) 
self.n.append( [1] * ACTIONNUMBER ) 
self.T, self.nn = 0, 0 
for і in xrange(CONFIGNUMBER) : 
ѕе1#.Т.аррепа( 1) 
ѕе1#.пп.аррепа( П) 
for j іп хгапре (АСТТОММОМВЕВ) : 
ѕе1#.Т[і1.аррепа( 
[1 / #1оа+ (СОМЕТОМОМВЕК)] * CONFIGNUMBER ) 
ѕе1#.пп[і].аррепа( [1] * СОМЕТСМОМВЕВ ) 


def сһооѕеАсііоп(ѕе1#, config): 
if (self.id < N / 2): 
return self.chooseActiong (config) 
elif (self.id >= N / 2): 
return self.chooseActionDyna(config) 
else: 
return randrange(ACTIONNUMBER) 


def learn(self, action, config, reward, newconfig): 
self.totalreward = self.totalreward + reward 
if (self.id == 0): 
self.learnĝ (action, config, reward, newconfig) 
elif (self.id == 1): 
self .learnDyna (action, config, reward, newconfig) 


def сһооѕеАсїіоп (self, config): 
sum = 0 
for і in xrange(ACTIONNUMBER) : 
sum = sum + math.exp(self.Q[config] [i]) 
r = random() 
curweight = 0 
for і in xrange(ACTIONNUMBER) : 
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def 


def 


def 


curweight = curweight + 
math.exp(self.Q[config] [1]) / sum 
if (r < curweight): 
return i 


learn (self, action, config, reward, newconfig): 
maxq = 0 
for і in xrange(ACTIONNUMBER) : 
if (self .Q[newconfig] [1] > шаха): 
паха = self .Q[newconfig] Li] 
self .Q[config] [action] = self .Q[config] [action] + 
ALPHA* (reward+GAMMA*maxq-self .Q[config] [action] ) 


chooseActionDyna(self, config): 
max, maxq = 0, 0 
for і in xrange(ACTIONNUMBER) : 
if (self.Q[config][i] > шаха): 
шах, шаха = і, self.Q[config] [1] 
return max 


learnDyna (self, а, s, reward, news): 
self .n[s] [a] = self.n[s] [а] + 1 
self .nn[s] [а] [news] = self .nn[s] [a] [news] + 1 
self .R[s] [a] = self.R[s] [а] + 
(reward - ѕе1ғ.Е [5] [а]) / float(self.n[s] [а]) 
for u іп xrange(CONFIGNUMBER) : 
if (u == news): 
self.T[s] [а] [u] = self.T[s] [а] [u] + 


(1-self.T[s] [а] [u])/float (self .nn[s] [а] [u]) 


else: 
self .T[s] [а] [u] = self.T[s] [а] [u] - 
self .T[s] [a] [u] / float(self.nn[s] [а] [u] ) 
maxq = [] 
for і in xrange(CONFIGNUMBER) : 
шаха .аррепа (0) 
for j іп хгапре (АСТТОММОМВЕВ) : 
if (ве1#.0[11[1] > шаха[1]): 
паха[1] = зе1+.0[1] [j] 
+ешр_зиш = 0 
for і in хгапре (СОМЕТСМОМВЕЕ) : 
temp_sum = temp_sum + зе1+.Т[5] [а] [1] * шаха[1] 
self .Q[s] [а] = self.R[s] [а] + GAMMA ж temp_sum 
for К in хгапре(РУМА_К): 
гап4_з = гапагапре (СОМЕТСМОМВЕВ) 
гапа а = гапігапсе (АСТТОММОМВЕВ) 
temp_sum = 0 
for і іп хгапре (СОМЕІТСМОМВЕВ) : 
temp_sum = temp_sum + 
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ѕе1#.Т [хапа _5=1 [rand_a] [i] * шаха [1] 
ѕе1#.0 [хапа =] [rand_a] = 
ѕе1#.Е[гапа_5=]1 [хапа а] + GAMMA ж temp_sum 


# Класс, описывающий поле 
class Мог1А(): 


def 


def 


def 


def 


def 


--init__ (self): 
self.n = N 
self.wid = MAPWIDTH 
self.hei = MAPHEIGHT 
self.map = [] 
self.timeunits = 0 
for i in xrange(self.wid): 
self .map.append([0 for j іп xrange(self.hei)]) 
self .creatures = [] 
for i іп xrange(N): 
creat = Creature( 
i, randrange (self .wid), randrange(self.hei)) 
self .creatures . append (creat) 


doCreatureAction(self, cr, action): 
if (action < ACT_ATTACK): 
performMoveAction(cr, action) 


calculateReward(self, 1, action, rewards): 
if (action == ACT_ATTACK): 
for j in xrange(N): 
if ( (i != j) and (self .creatures[j].x == 
self .creatures [i] .x) and 
(self.creatures[j].y == 

incy (self .creatures[i].y)) ): 
rewards [1] = rewards[i] + REWARD_ATTACK 
rewards [j] = rewards[j] + REWARD_ATTACKED 


getConfig(self, crnum): 
x = self .creatures [crnum] .x 
у = self .creatures [сгпит].у 
seeing = [0] * (C_SEE_HERE + 1) 
for і іп xrange(N): 
if (i != crnum): 
see = withinsight(x, y, 
self .creatures[i].x, self.creatures[i].y) 
if (see != C_SEE_NONE): 
seeing[see] = C_SEE_CREATURE 
return calcConfig(seeing, C_HEAR_NONE) 


update (self): 
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self.timeunits = self.timeunits + 1 
for t in хгапре (МОУЕЗРЕВТТМЕОМТТ) : 
config, reward, action = П, [0] * N, 0 
for i in хгапре (N): 
config.append(self.getConfig(i)) 
action.append( 
self .creatures [і] .chooseAction(config[i])) 
self.calculateReward(i, action[i], reward) 
for i іп хгапре (N): 
self.doCreatureAction( 
self.creatures [1], action[i]) 
self .creatures [i] .learn(action[li], 
configli], reward[i], self .getConfig(i)) 


# Здесь начинается собственно игровой процесс 
руваше.1п1+ () 

size = [100, 100] 

screen = pygame.display.set_mode (size) 
background = pygame .Surface(screen.get_size()) 
pygame .event.set_grab(1) 

world = World() 

done = False 


while not done: 
events = pygame.event.get( ) 
for e in events: 
if (e.type == KEYDOWN) : 
if( e.key == K_ESCAPE ): 
done = True 
break 
else: 
world.update() 


Не будем отнимать у читателя удовольствия попробовать Ca- 
мому реализовать эти (или другие) алгоритмы для этого игру- 
шечного примера и увидеть, что получится. В среднем у нас 
получалось, что Рупа работает хорошо, а О-обучение — ещё луч- 
ше. Думается, связано это с тем, что модель совсем уж простая. 
Здесь ни к чему сложное обучение алгоритма Dyna, здесь до- 
статочно простого О-обучения: увидел врага — беги и убивай. В 
более сложных ситуациях Пупа покажет своё превосходство, но 
поля этой книги не так велики, чтобы приводить соответствую- 
щие программы. 
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$ 7.10. Заключение 


Обучение с подкреплением позволяет обучаться в ситуации, 
когда агенту заранее неизвестны параметры среды, и их при- 
ходится познавать по ходу «жизни». Более того, оно позволяет 
рассмотреть ситуацию, когда результат поведения задан не од- 
нозначно, а только как часть более длинной цепочки действий. 
Всё это делает обучение с подкреплением достаточно привлека- 
тельным для реальных применений — если, конечно, предмет- 
ная область действительно настолько сложна. 

Один пример предметной области, гле всё именно так пло- 
хо — это попытки обучить компьютер играть в игры. Мы уже 
упоминали программу ТО-Сашитоп, которая достигла уровня 
людей-профессионалов в игре в нарды; она была сделана на ос- 
нове обучения с подкреплением [154-156]. В нардах каждый ход 
зависит от бросков кубиков, что приводит к достаточно равно- 
мерному покрытию дерева возможных вариантов при обучении. 
Поэтому вероятностное обучение, предполагаемое семейством 
стратегий ТО(А), хорошо подходит для обучение игре в нарды. 
Отметим, что в программе ТО-Саштой использовался также 
и другой аппарат машинного обучения: искусственная нейрон- 
ная сеть проводила оценку позиции, а ТО(Л)-алгоритм опреде- 
лял, как изменять веса при обучении (ведь тестовых примеров 
в классическом понимании нет, есть только результат большого 
числа последовательных выборов хода). 

Но ещё более естественными оказались применения в ро- 
ботике. Когла робот двигает «рукой», он совершает действие, 
состоящее из многих микродействий, причём для каждого KOH- 
кретного решения, принимаемого роботом, нет чёткого ответа 
на вопрос, насколько оно успешно, оценить можно только ре- 
зультат действия в целом. Казалось бы, это создаёт идеальные 
условия для того, чтобы применить обучение с подкреплени- 
ем [127, 139, 150]. В роботике, правда, приходится рассматривать 
более или менее произвольные движения в трёхмерном про- 
странстве (даже более того, потому что шарниров у манипуля- 
тора робота будет, скорее всего, несколько). И для «обычных» 
алгоритмов, которые мы рассматривали в этой главе, данных 
оказывается маловато. Но ведь человек как-то учится делать 
руками то, что надо (хоть и с переменным успехом), а мышц у 


§ 7.10. Заключение 269 


него ещё побольше будет, чем шарниров у робота? Сейчас ис- 
следователи начинают использовать в обучении более «челове- 
ческие» механизмы: не только оценивать результат, но ещё и 
сначала посмотреть, как это делает кто-то другой. Так появи- 
лась одна из недавних разработок на эту тему — алгоритмы 
актёра-критика (Natural Actor-Critic и его вариация Episodic 
Natural Actor-Critic) [124-126, 128]. 

В общем, обучение с подкреплением ещё далеко не сказало 


своего последнего слова. И действительно, разве мы не именно 
так учимся всю жизнь? 
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